डिजाइन प्रभाव: Difference between revisions

From Vigyanwiki
(Created page with "{{Use dmy dates|date=June 2021}} सर्वेक्षण पद्धति में, डिजाइन प्रभाव (आम तौर पर डिजाइ...")
 
No edit summary
Line 1: Line 1:
{{Use dmy dates|date=June 2021}}
{{Use dmy dates|date=June 2021}}[[सर्वेक्षण पद्धति]] में, डिजाइन प्रभाव (सामान्यतः डिजाइन प्रभाव परिभाषाओं के रूप में <math>D_{eff}</math> या <math>D_{eft}^2</math>) कुछ मापदंड के लिए अनुमानक के भिन्नता पर [[नमूना डिजाइन|प्रतिदर्शी डिजाइन]] के अपेक्षित प्रभाव का एक उपाय है। इसकी गणना किसी (अधिकांशतः) जटिल प्रतिदर्शी डिजाइन से नमूने के आधार पर एक अनुमानक के समान संख्या में तत्वों के एक साधारण अनियमित नमूने (एसआरएस) के आधार पर वैकल्पिक अनुमानक के भिन्नता के अनुपात के रूप में की जाती है।<ref name=Kish1965>{{cite book |author=Kish, Leslie |title=सर्वेक्षण नमूनाकरण|location=New York |publisher=John Wiley & Sons, Inc. |year=1965|isbn=0-471-10949-5}}</ref>{{rp|258}} डेफ़ (चाहे यह अनुमान लगाया गया हो, या पूर्व-ज्ञात हो) का उपयोग उन प्रकरणों में एक अनुमानक के प्रसरण को समायोजित करने के लिए किया जा सकता है जहाँ सरल अनियमित प्रतिदर्शी का उपयोग करके प्रतिदर्शी तैयार नहीं किया जाता है। यह प्रतिदर्शी आकार की गणना में और नमूने की प्रतिनिधित्व क्षमता को मापने के लिए भी उपयोगी हो सकता है। शब्द डिजाइन प्रभाव 1965 में लेस्ली किश द्वारा गढ़ा गया था।
[[सर्वेक्षण पद्धति]] में, डिजाइन प्रभाव (आम तौर पर डिजाइन प्रभाव#परिभाषाओं के रूप में <math>D_{eff}</math> या <math>D_{eft}^2</math>) कुछ पैरामीटर के लिए अनुमानक के भिन्नता पर [[नमूना डिजाइन]] के अपेक्षित प्रभाव का एक उपाय है। इसकी गणना एक (अक्सर) जटिल नमूनाकरण डिजाइन से नमूने के आधार पर एक अनुमानक के भिन्नता के अनुपात के रूप में की जाती है, समान संख्या में तत्वों के एक साधारण यादृच्छिक नमूने (एसआरएस) के आधार पर वैकल्पिक अनुमानक के भिन्नता के रूप में।<ref name=Kish1965>{{cite book |author=Kish, Leslie |title=सर्वेक्षण नमूनाकरण|location=New York |publisher=John Wiley & Sons, Inc. |year=1965|isbn=0-471-10949-5}}</ref>{{rp|258}} डेफ़ (चाहे यह अनुमान लगाया गया हो, या पूर्व-ज्ञात हो) का उपयोग उन मामलों में एक अनुमानक के प्रसरण को समायोजित करने के लिए किया जा सकता है जहाँ सरल यादृच्छिक नमूनाकरण का उपयोग करके नमूना तैयार नहीं किया जाता है। यह नमूना आकार की गणना में और नमूने की प्रतिनिधित्व क्षमता को मापने के लिए भी उपयोगी हो सकता है। शब्द डिजाइन प्रभाव 1965 में लेस्ली किश द्वारा गढ़ा गया था।


डिजाइन प्रभाव एक सकारात्मक [[वास्तविक संख्या]] है जो एक मुद्रास्फीति को इंगित करता है (<math>D_{eff}>1</math>), या अपस्फीति (<math>D_{eff}<1</math>) कुछ पैरामीटर के लिए एक अनुमानक के विचरण में, जो अध्ययन के कारण एसआरएस (के साथ) का उपयोग नहीं कर रहा है <math>D_{eff}=1</math>, जब प्रसरण समान हैं)।<ref name="sarndal1992" />{{rp|53,54}}
डिजाइन प्रभाव एक सकारात्मक [[वास्तविक संख्या]] है जो एक मुद्रास्फीति (<math>D_{eff}>1</math>) को इंगित करता है, या अपस्फीति (<math>D_{eff}<1</math>) कुछ मापदंड के लिए एक अनुमानक के विचरण में, जो कि अध्ययन के कारण एसआरएस (के साथ) का उपयोग नहीं कर रहा है, जब प्रसरण समान हैं अर्थात <math>D_{eff}=1</math>)।<ref name="sarndal1992" />{{rp|53,54}}


कुछ संभावित जटिल नमूनाकरण जो 1 से भिन्न डेफ़ को पेश कर सकते हैं उनमें शामिल हैं: क्लस्टर नमूनाकरण (जैसे कि जब टिप्पणियों के बीच सहसंबंध होता है), स्तरीकृत नमूनाकरण, [[क्लस्टर यादृच्छिक नियंत्रित परीक्षण]], अनुपातहीन (असमान संभावना) नमूना, गैर-कवरेज, गैर-प्रतिक्रिया , सांख्यिकीय डिजाइन प्रभाव # असमान चयन संभावनाओं के स्रोत, आदि।
कुछ संभावित जटिल प्रतिदर्शी जो 1 से भिन्न डेफ़ को प्रस्तुत कर सकते हैं उनमें सम्मिलित हैं: क्लस्टर प्रतिदर्शी (जैसे कि जब टिप्पणियों के बीच सहसंबंध होता है), स्तरीकृत प्रतिदर्शी, [[क्लस्टर यादृच्छिक नियंत्रित परीक्षण|क्लस्टर अनियमित नियंत्रित परीक्षण]], अनुपातहीन (असमान संभावना) प्रतिदर्शी, गैर-कवरेज, गैर-प्रतिक्रिया, सांख्यिकीय डिजाइन प्रभाव,असमान चयन संभावनाओं के स्रोत आदि।


डेफ का उपयोग नमूना आकार की गणना में किया जा सकता है, नमूना के प्रतिनिधि (लक्षित आबादी के लिए) को मापने के साथ-साथ कुछ अनुमानक के भिन्नता को समायोजित करने के लिए (ऐसे मामलों में जब हम एसआरएस मानते हुए अनुमानक के भिन्नता की गणना कर सकते हैं)।<ref>{{cite journal | last1 = Heo | first1 = Moonseong | last2 = Kim | first2 = Yongman | last3 = Xue | first3 = Xiaonan | last4 = Kim | first4 = Mimi Y. | year = 2010 | title = अनुदैर्ध्य क्लस्टर यादृच्छिक परीक्षण में अनुवर्ती के अंत में एक हस्तक्षेप प्रभाव का पता लगाने के लिए नमूना आकार की आवश्यकता| url = http://www3.interscience.wiley.com/journal/123212319/abstract | archive-url = https://archive.today/20130105190734/http://www3.interscience.wiley.com/journal/123212319/abstract | url-status = dead | archive-date = 5 January 2013 | journal = Statistics in Medicine | volume = 29 | issue = 3| pages = 382–390 |doi=10.1002/sim.3806 | pmid = 20014353 | s2cid = 30001378 }}</ref>
डेफ का उपयोग प्रतिदर्शी आकार की गणना में किया जा सकता है, प्रतिदर्शी के प्रतिनिधि (लक्षित आबादी के लिए) को मापने के साथ-साथ कुछ अनुमानक के भिन्नता को समायोजित करने के लिए ऐसे प्रकरणों में जब हम एसआरएस मानते हुए अनुमानक के भिन्नता की गणना कर सकते हैं।<ref>{{cite journal | last1 = Heo | first1 = Moonseong | last2 = Kim | first2 = Yongman | last3 = Xue | first3 = Xiaonan | last4 = Kim | first4 = Mimi Y. | year = 2010 | title = अनुदैर्ध्य क्लस्टर यादृच्छिक परीक्षण में अनुवर्ती के अंत में एक हस्तक्षेप प्रभाव का पता लगाने के लिए नमूना आकार की आवश्यकता| url = http://www3.interscience.wiley.com/journal/123212319/abstract | archive-url = https://archive.today/20130105190734/http://www3.interscience.wiley.com/journal/123212319/abstract | url-status = dead | archive-date = 5 January 2013 | journal = Statistics in Medicine | volume = 29 | issue = 3| pages = 382–390 |doi=10.1002/sim.3806 | pmid = 20014353 | s2cid = 30001378 }}</ref>
डिजाइन प्रभाव शब्द को 1965 में [[लेस्ली किश]] द्वारा गढ़ा गया था।<ref name=Kish1965 />{{rp|88,258}} जब से, कई डिजाइन प्रभाव # प्रसिद्ध नमूना डिजाइनों के लिए डिजाइन प्रभाव | साहित्य में गणना (और अनुमानक) प्रस्तावित किए गए हैं, रुचि के अनुमानकों के भिन्नता में वृद्धि/कमी पर ज्ञात नमूनाकरण डिजाइन के प्रभाव का वर्णन करने के लिए . सामान्य तौर पर, डिजाइन प्रभाव हितों के आंकड़ों के बीच भिन्न होता है, जैसे कि कुल या अनुपात वितरण # यादृच्छिक अनुपात के साधन और भिन्नताएं; यह भी मायने रखता है कि क्या डिजाइन (जैसे: चयन संभावनाएँ) रुचि के परिणाम के साथ सहसंबद्ध हैं। और अंत में, यह परिणाम के वितरण से ही प्रभावित होता है। व्यवहार में डिजाइन प्रभाव का आकलन और उपयोग करते समय इन सभी पर विचार किया जाना चाहिए।<ref name = "park2006" />{{rp|13}}
 
डिजाइन प्रभाव शब्द को 1965 में [[लेस्ली किश]] द्वारा गढ़ा गया था।<ref name="Kish1965" />{{rp|88,258}} कई डिजाइन प्रभाव प्रसिद्ध प्रतिदर्शी डिजाइनों के लिए डिजाइन प्रभाव साहित्य में गणना द्वारा (और अनुमानक) प्रस्तावित किए गए हैं, रुचि के अनुमानकों के भिन्नता में वृद्धि/कमी पर ज्ञात प्रतिदर्शी डिजाइन के प्रभाव का वर्णन करने के लिए प्रयोग किया जाता है जो कि सामान्यतः, डिजाइन प्रभाव हितों के आंकड़ों के बीच भिन्न होता है, जैसे कि कुल या अनुपात वितरण अनियमित अनुपात के साधन और भिन्नताएं यह भी मायने रखता है कि क्या डिजाइन (जैसे: चयन संभावनाएँ) रुचि के परिणाम के साथ सहसंबद्ध हैं और अंत में, यह परिणाम के वितरण से ही प्रभावित होता है। व्यवहार में डिजाइन प्रभाव का आकलन और उपयोग करते समय इन सभी पर विचार किया जाना चाहिए।<ref name="park2006" />{{rp|13}}


== परिभाषाएँ ==
== परिभाषाएँ ==


=== डेफ ===
=== डेफ ===
डिजाइन प्रभाव (डेफ, या <math>D_{eff}</math>) कुछ [[सांख्यिकीय पैरामीटर]] के अनुमानकों के लिए दो सैद्धांतिक भिन्नताओं का अनुपात है (<math>\theta</math>):<ref name=Kish1965/><ref>Everitt, B.S. (2002) ''The Cambridge Dictionary of Statistics'', 2nd Edition. CUP. {{ISBN|0-521-81099-X}}</ref>
डिजाइन प्रभाव (डेफ, या <math>D_{eff}</math>) कुछ [[सांख्यिकीय पैरामीटर|सांख्यिकीय मापदंड]] के अनुमानकों के लिए दो सैद्धांतिक भिन्नताओं का अनुपात (<math>\theta</math>) है:<ref name=Kish1965/><ref>Everitt, B.S. (2002) ''The Cambridge Dictionary of Statistics'', 2nd Edition. CUP. {{ISBN|0-521-81099-X}}</ref>
: * अंश में कुछ पैरामीटर के अनुमानक के लिए वास्तविक भिन्नता है (<math>\hat \theta_w</math>) दिए गए नमूने के डिजाइन में <math>p</math>;
: * अंश में कुछ मापदंड के अनुमानक के लिए वास्तविक भिन्नता (<math>\hat \theta_w</math>) है, दिए गए नमूने के डिजाइन में <math>p</math> प्रतिदर्शी है।
: * भाजक में एक ही नमूना आकार मानने वाला विचरण है, लेकिन अगर अनुमानक का उपयोग करके नमूना प्राप्त किया गया था तो हम प्रतिस्थापन के बिना एक साधारण यादृच्छिक नमूने के लिए उपयोग करेंगे (<math>\hat \theta_{srswor}</math>).
: * भाजक में एक ही प्रतिदर्शी आकार मानने वाला विचरण है, लेकिन यदि अनुमानक का उपयोग करके प्रतिदर्शी प्राप्त किया गया था तो हम प्रतिस्थापन के बिना एक साधारण अनियमित नमूने के लिए (<math>\hat \theta_{srswor}</math>) उपयोग करेंगे।


ताकि:
जिससे कि:


: <math>Deff_p(\hat \theta) = \frac{var(\hat \theta_w)}{var(\hat \theta_{srswor})}</math>
: <math>Deff_p(\hat \theta) = \frac{var(\hat \theta_w)}{var(\hat \theta_{srswor})}</math>
अलग रखो, <math>D_{eff}</math> कितना अधिक विचरण बढ़ा था (या कुछ मामलों में घट गया था), क्योंकि हमारा नमूना तैयार किया गया था और एक विशिष्ट नमूना डिजाइन (जैसे: वजन, या अन्य उपायों का उपयोग करके) के लिए समायोजित किया गया था, क्योंकि यह तब होगा जब नमूना एक से था सरल यादृच्छिक नमूनाकरण (प्रतिस्थापन के बिना)गणना के कई तरीके हैं <math>D_{eff}</math>, ब्याज के पैरामीटर के आधार पर (जैसे: जनसंख्या कुल, जनसंख्या माध्य, मात्राएँ, मात्राओं का अनुपात आदि), उपयोग किया गया अनुमानक, और नमूनाकरण डिज़ाइन (जैसे: क्लस्टर नमूनाकरण, स्तरीकृत नमूनाकरण, पोस्ट-स्तरीकरण, बहु-चरण नमूनाकरण) , वगैरह।)।
<math>D_{eff}</math> कितना अधिक विचरण बढ़ा था (या कुछ प्रकरणों में घट गया था), क्योंकि हमारा प्रतिदर्शी तैयार किया गया था और एक विशिष्ट प्रतिदर्शी डिजाइन (जैसे: वजन, या अन्य उपायों का उपयोग करके) के लिए समायोजित किया गया था, क्योंकि यह तब संभव होगा जब प्रतिदर्शी एक से सरल था। सरल अनियमित प्रतिदर्शी (प्रतिस्थापन के बिना) गणना <math>D_{eff}</math> के कई तरीके हैं, ब्याज के मापदंड के आधार पर (जैसे: जनसंख्या कुल, जनसंख्या माध्य, मात्राएँ, मात्राओं का अनुपात आदि) उपयोग किया गया अनुमानक और प्रतिदर्शी डिज़ाइन (जैसे: क्लस्टर प्रतिदर्शी, स्तरीकृत प्रतिदर्शी, पोस्ट-स्तरीकरण, बहु-चरण प्रतिदर्शी) इत्यादि)।


समष्टि माध्य का अनुमान लगाने के लिए, डेफ (कुछ प्रतिदर्श डिजाइन p के लिए) है:<ref name = "park2006" />{{rp|4}}<ref name="sarndal1992">{{cite book
समष्टि माध्य का अनुमान लगाने के लिए डेफ (कुछ प्रतिदर्श डिजाइन p के लिए) है:<ref name = "park2006" />{{rp|4}}<ref name="sarndal1992">{{cite book
  |title = Model Assisted Survey Sampling
  |title = Model Assisted Survey Sampling
  |authors = Carl-Erik Sarndal, Bengt Swensson, Jan Wretman
  |authors = Carl-Erik Sarndal, Bengt Swensson, Jan Wretman
Line 29: Line 29:


: <math>Deff_p = \frac{var_p(\bar y_p)}{(1-f)S^2_y / n}</math>
: <math>Deff_p = \frac{var_p(\bar y_p)}{(1-f)S^2_y / n}</math>
जहाँ n नमूना आकार है, f जनसंख्या से नमूने का अंश है (n/N), (1-f) मानक त्रुटि # परिमित जनसंख्या सुधार (FPC) (FPC) है, और <math>S^2_y = </math> प्रसरण#नमूना प्रसरण है।
जहाँ n प्रतिदर्शी आकार है, f जनसंख्या से नमूने का अंश है (n/N), (1-f) मानक त्रुटि परिमित जनसंख्या सुधार (पांचवें वेतन आयोग) (पांचवें वेतन आयोग) है, और <math>S^2_y = </math> प्रतिदर्शी प्रसरण है।


इकाई विचरण (या तत्व विचरण) का अनुमान तब होता है जब डेफ को तत्व के विचरण से गुणा किया जाता है, ताकि नमूना डिजाइन की सभी जटिलताओं को शामिल किया जा सके।<ref name=Kish1965 />{{rp|259}}
इकाई विचरण (या तत्व विचरण) का अनुमान तब होता है जब डेफ को तत्व के विचरण से गुणा किया जाता है, जिससे कि प्रतिदर्शी डिजाइन की सभी जटिलताओं को सम्मिलित किया जा सके।<ref name=Kish1965 />{{rp|259}}


ध्यान दें कि डेफ की परिभाषा जनसंख्या के उन मापदंडों पर कैसे आधारित है जिन्हें हम अक्सर नहीं जानते हैं (यानी: दो अलग-अलग नमूना डिजाइनों के तहत अनुमानकों के प्रसरण)। विशिष्ट डिजाइनों के लिए डीईएफ़ का आकलन करने की प्रक्रिया को डिज़ाइन प्रभाव # प्रसिद्ध नमूना डिज़ाइनों के लिए डिज़ाइन प्रभाव में वर्णित किया जाएगा।<ref name = "Kalton2005">Kalton, G., J. M. Brick, and T. Le. "Estimating components of design effects for use in sample design. In household sample surveys in developing and transition countries,(Sales No. E. 05. XVII. 6). Department of Economic and Social Affairs." Statistics Division, United Nations, New York (2005). [https://unstats.un.org/unsd/hhsurveys/pdf/Chapter_6.pdf (pdf)]</ref>{{rp|98}}
ध्यान दें कि डेफ की परिभाषा जनसंख्या के उन मापदंडों पर कैसे आधारित है जिन्हें हम अधिकांशतः नहीं जानते हैं (अर्थात, दो अलग-अलग प्रतिदर्शी डिजाइनों के अनुसार अनुमानकों के प्रसरण)। विशिष्ट डिजाइनों के लिए डीईएफ़ का आकलन करने की प्रक्रिया को डिज़ाइन प्रभाव प्रसिद्ध प्रतिदर्शी डिज़ाइनों के लिए डिज़ाइन प्रभाव में वर्णित किया जाएगा।<ref name = "Kalton2005">Kalton, G., J. M. Brick, and T. Le. "Estimating components of design effects for use in sample design. In household sample surveys in developing and transition countries,(Sales No. E. 05. XVII. 6). Department of Economic and Social Affairs." Statistics Division, United Nations, New York (2005). [https://unstats.un.org/unsd/hhsurveys/pdf/Chapter_6.pdf (pdf)]</ref>{{rp|98}}


कुछ डिज़ाइन के लिए कुल (माध्य नहीं) का अनुमान लगाने के (सैद्धांतिक) डिज़ाइन प्रभाव के लिए एक सामान्य सूत्र कोचरन 1977 में दिया गया है।<ref name = "sarndal1992" />{{rp|54}}
कुछ डिज़ाइन के लिए कुल (माध्य नहीं) का अनुमान लगाने के (सैद्धांतिक) डिज़ाइन प्रभाव के लिए एक सामान्य सूत्र कोचरन 1977 में दिया गया है।<ref name = "sarndal1992" />{{rp|54}}


=== चतुर ===
=== डेफ्ट ===


1995 में किश द्वारा प्रस्तावित डेफ से संबंधित मात्रा को डेफ्ट (डिजाइन इफेक्ट फैक्टर) कहा जाता है।<ref name = "Kish1995" />{{rp|56}}<ref name = "park2006" />इसे विचरण अनुपात के वर्गमूल पर परिभाषित किया गया है, और भाजक बिना प्रतिस्थापन (srswor) के बजाय प्रतिस्थापन (srswr) के साथ एक साधारण यादृच्छिक नमूने का उपयोग करता है:
1995 में किश द्वारा प्रस्तावित डेफ से संबंधित मात्रा को डेफ्ट (डिजाइन इफेक्ट फैक्टर) कहा जाता है।<ref name = "Kish1995" />{{rp|56}}<ref name = "park2006" />इसे विचरण अनुपात के वर्गमूल पर परिभाषित किया गया है, और भाजक बिना प्रतिस्थापन के अतिरिक्त प्रतिस्थापन के साथ एक साधारण अनियमित नमूने का उपयोग करता है:


<math>D_{eft} = \sqrt{\frac{var(\hat \theta_w)}{var(\hat \theta_{srswr})}}</math>
<math>D_{eft} = \sqrt{\frac{var(\hat \theta_w)}{var(\hat \theta_{srswr})}}</math>
इस बाद की परिभाषा में (1995 बनाम 1965 में प्रस्तावित) यह तर्क दिया गया था कि प्रतिस्थापन के बिना एसआरएस (विचरण पर इसके सकारात्मक प्रभाव के साथ) को डिजाइन प्रभाव की परिभाषा में शामिल किया जाना चाहिए, क्योंकि यह नमूना डिजाइन का हिस्सा है। यह अनुमान में उपयोग से अधिक सीधे संबंधित है (चूंकि हम अक्सर [[विश्वास अंतराल]] बनाते समय +Z*DE*SE का उपयोग करते हैं, न कि +Z*DE*VAR का)। साथ ही चूंकि मानक त्रुटि#परिमित जनसंख्या सुधार (FPC) (FPC) भी कुछ स्थितियों में गणना करना कठिन होता है। लेकिन कई मामलों में जब जनसंख्या बहुत बड़ी होती है, तो Deft (लगभग) Deff का वर्गमूल होता है (<math>D_{eft} \approx \sqrt{D_{eff}}</math>).


डेफ़्ट का मूल उद्देश्य यह था कि वह मौलिक परिवर्तनशीलता से परे नमूना डिज़ाइन के प्रभावों को व्यक्त करे <math>\frac{S^2_m}{m}</math>, माप की इकाई और नमूना आकार दोनों को उपद्रव मापदंडों के रूप में हटाकर, यह एक ही सर्वेक्षण के भीतर (और यहां तक ​​कि सर्वेक्षणों के बीच भी) कई आँकड़ों और चरों के लिए डिजाइन प्रभाव को सामान्य बनाने योग्य (प्रासंगिक) बनाने के लिए किया जाता है।<ref name = "Kish1995" />{{rp|55}} हालांकि, अनुवर्ती कार्यों ने दिखाया है कि डिजाइन प्रभाव की गणना, जनसंख्या कुल या माध्य जैसे मापदंडों के लिए, परिणाम माप की परिवर्तनशीलता पर निर्भरता है, जो इस माप के लिए किश की मूल आकांक्षा को सीमित करता है। हालाँकि, यह कथन शिथिल हो सकता है (अर्थात: कुछ शर्तों के तहत) [[भारित माध्य]] के लिए सही हो सकता है।<ref name = "park2006" />{{rp|5}}
इसके बाद की परिभाषा में (1995 बनाम 1965 में प्रस्तावित) यह तर्क दिया गया था कि प्रतिस्थापन के बिना एसआरएस (विचरण पर इसके सकारात्मक प्रभाव के साथ) को डिजाइन प्रभाव की परिभाषा में सम्मिलित किया जाना चाहिए, क्योंकि यह प्रतिदर्शी डिजाइन का हिस्सा है। यह अनुमान में उपयोग से अधिक प्रत्यक्ष रूप से संबंधित है (चूंकि हम अधिकांशतः [[विश्वास अंतराल]] बनाते समय +Z*DE*SE का उपयोग करते हैं, न कि +Z*DE*VAR का)। साथ ही चूंकि मानक त्रुटि परिमित जनसंख्या सुधार (पांचवें वेतन आयोग) भी कुछ स्थितियों में गणना करना कठिन होता है। लेकिन कई प्रकरणों में जब जनसंख्या बहुत बड़ी होती है, तो डेफ्ट (लगभग) का वर्गमूल (<math>D_{eft} \approx \sqrt{D_{eff}}</math>) होता है।
 
डेफ़्ट का मूल उद्देश्य यह था कि वह मौलिक परिवर्तनशीलता से परे प्रतिदर्शी डिज़ाइन के प्रभावों को व्यक्त करे। <math>\frac{S^2_m}{m}</math>, माप की इकाई और प्रतिदर्शी आकार दोनों को विचलित मापदंडों के रूप में हटाकर यह एक ही सर्वेक्षण के अंतर्गत (और यहां तक ​​कि सर्वेक्षणों के बीच भी) कई आँकड़ों और चरों के लिए डिजाइन प्रभाव को सामान्य बनाने योग्य (प्रासंगिक) निर्मित के लिए किया जाता है।<ref name="Kish1995" />{{rp|55}} हालांकि, अनुवर्ती फलनों ने दिखाया है कि डिजाइन प्रभाव की गणना जनसंख्या कुल या माध्य जैसे मापदंडों के लिए परिणाम माप की परिवर्तनशीलता पर निर्भर है, जो इस माप के लिए किश की मूल आकांक्षा को सीमित करता है। हालाँकि यह कथन शिथिल हो सकता है (अर्थात: कुछ शर्तों के अनुसार) और [[भारित माध्य]] के लिए सही हो सकता है।<ref name="park2006" />{{rp|5}}


=== प्रभावी नमूना आकार ===
=== प्रभावी प्रतिदर्शी आकार ===
प्रभावी नमूना आकार, जिसे 1965 में किश द्वारा भी परिभाषित किया गया था, डिजाइन प्रभाव से विभाजित मूल नमूना आकार है।<ref name=Kish1965 />{{rp|162,259}}<ref name = "kish1992">Kish, Leslie, and J. Official Stat. "Weighting for unequal Pi." (1992): 183–200. [https://www.scb.se/contentassets/f6bcee6f397c4fd68db6452fc9643e68/weighting-for-unequal-empemsubemiemsub.pdf (pdf link)]</ref>{{rp|190,192}} यह मात्रा दर्शाती है कि मौजूदा डिज़ाइन के साथ अनुमानक (कुछ पैरामीटर के लिए) के वर्तमान भिन्नता को प्राप्त करने के लिए आवश्यक नमूना आकार क्या होगा, यदि नमूना डिज़ाइन (और इसके प्रासंगिक पैरामीटर अनुमानक) एक साधारण यादृच्छिक नमूने पर आधारित थे।<ref name=EffSize>{{cite web |url=https://golem.ph.utexas.edu/category/2014/12/effective_sample_size.html| title=प्रभावी नमूना आकार| author=Tom Leinster | date=18 December 2014}}</ref>
प्रभावी प्रतिदर्शी आकार, जिसे 1965 में किश द्वारा भी परिभाषित किया गया था, डिजाइन प्रभाव से विभाजित मूल प्रतिदर्शी आकार है।<ref name="Kish1965" />{{rp|162,259}}<ref name="kish1992">Kish, Leslie, and J. Official Stat. "Weighting for unequal Pi." (1992): 183–200. [https://www.scb.se/contentassets/f6bcee6f397c4fd68db6452fc9643e68/weighting-for-unequal-empemsubemiemsub.pdf (pdf link)]</ref>{{rp|190,192}} यह मात्रा दर्शाती है कि सम्मलिता डिज़ाइन के साथ अनुमानक (कुछ मापदंड के लिए) के वर्तमान भिन्नता को प्राप्त करने के लिए आवश्यक प्रतिदर्शी आकार क्या होगा, यदि प्रतिदर्शी डिज़ाइन (और इसके प्रासंगिक मापदंड अनुमानक) एक साधारण अनियमित नमूने पर आधारित थे।<ref name="EffSize">{{cite web |url=https://golem.ph.utexas.edu/category/2014/12/effective_sample_size.html| title=प्रभावी नमूना आकार| author=Tom Leinster | date=18 December 2014}}</ref>
अर्थात्:
अर्थात्:


: <math>n_{\text{eff}} = \frac{n}{D_{eff}}</math>
: <math>n_{\text{eff}} = \frac{n}{D_{eff}}</math>
दूसरे तरीके से कहें तो यह कहता है कि एक एस्टिमेटर का उपयोग करते समय हमारे पास कितनी प्रतिक्रियाएं बची हैं जो नमूना डिजाइन के डिजाइन प्रभाव के लिए सही ढंग से समायोजित करता है। उदाहरण के लिए, साधारण अंकगणितीय माध्य के बजाय व्युत्क्रम संभाव्यता भार के साथ [[भारित अंकगणितीय माध्य]] का उपयोग करना।
दूसरे तरीके से कहें तो यह कहता है कि एक एस्टिमेटर का उपयोग करते समय हमारे पास कितनी प्रतिक्रियाएं बची हैं जो प्रतिदर्शी डिजाइन के डिजाइन प्रभाव के लिए सही ढंग से समायोजित करता है। उदाहरण के लिए, साधारण अंकगणितीय माध्य के अतिरिक्त व्युत्क्रम संभाव्यता भार के साथ [[भारित अंकगणितीय माध्य]] का उपयोग करना।


डेफ़ का व्युत्क्रम लेकर प्रभावी नमूना आकार अनुपात प्राप्त करना भी संभव है (अर्थात: <math>\frac{n_{eff}}{n} = \frac{1}{D_{eff}}</math>).
डेफ़ का व्युत्क्रम लेकर प्रभावी प्रतिदर्शी आकार अनुपात प्राप्त करना भी संभव है (अर्थात: <math>\frac{n_{eff}}{n} = \frac{1}{D_{eff}}</math>).


असमान वजन के लिए किश के डिजाइन प्रभाव का उपयोग करते समय, आप लेस्ली किश के प्रभावी नमूना आकार के लिए निम्न सरल सूत्र का उपयोग कर सकते हैं<ref name=SurveySize>{{cite web |url=http://docs.displayr.com/wiki/Design_Effects_and_Effective_Sample_Size| title=Design Effects and Effective Sample Size}}</ref><ref name=Kish1965/>{{rp|162,259}}
असमान वजन के लिए किश के डिजाइन प्रभाव का उपयोग करते समय, आप लेस्ली किश के प्रभावी प्रतिदर्शी आकार के लिए निम्न सरल सूत्र का उपयोग कर सकते हैं<ref name="SurveySize">{{cite web |url=http://docs.displayr.com/wiki/Design_Effects_and_Effective_Sample_Size| title=Design Effects and Effective Sample Size}}</ref><ref name="Kish1965" />{{rp|162,259}}


: <math>n_{\text{eff}} = \frac{n}{D_\text{eff}} =  
: <math>n_{\text{eff}} = \frac{n}{D_\text{eff}} =  
Line 65: Line 66:
== सुप्रसिद्ध सैम्पलिंग डिजाइनों के लिए डिजाइन प्रभाव ==
== सुप्रसिद्ध सैम्पलिंग डिजाइनों के लिए डिजाइन प्रभाव ==


=== नमूनाकरण डिजाइन तय करता है कि डिजाइन प्रभाव की गणना कैसे की जानी चाहिए ===
=== प्रतिदर्शी डिजाइन तय करता है कि डिजाइन प्रभाव की गणना कैसे की जानी चाहिए ===


अलग-अलग सैंपलिंग डिज़ाइन उनके पूर्वाग्रह और विचरण के संदर्भ में अनुमानकों (जैसे माध्य) पर उनके प्रभाव में काफी भिन्न होते हैं।
अलग-अलग सैंपलिंग डिज़ाइन उनके पूर्वाग्रह और विचरण के संदर्भ में अनुमानकों (जैसे माध्य) पर उनके प्रभाव में काफी भिन्न होते हैं।


उदाहरण के लिए, क्लस्टर सैंपलिंग मामले में इकाइयों में समान या असमान चयन संभावनाएँ हो सकती हैं, भले ही उनका [[इंट्रा-क्लास सहसंबंध]] (और हमारे अनुमानकों के विचरण को बढ़ाने का उनका नकारात्मक प्रभाव) हो। स्तरीकृत नमूने के मामले में, संभावनाएं बराबर (ईपीएसईएम) या असमान हो सकती हैं। लेकिन इसकी परवाह किए बिना, नमूनाकरण चरण के दौरान, जनसंख्या में स्तर के आकार पर पूर्व सूचना का उपयोग, हमारे अनुमानकों की सांख्यिकीय दक्षता प्राप्त कर सकता है। उदाहरण के लिए: यदि हम जानते हैं कि लिंग हमारी रुचि के परिणाम से संबंधित है, और यह भी जानते हैं कि कुछ जनसंख्या के लिए पुरुष-महिला अनुपात 50%-50% है। फिर यदि हमने सुनिश्चित किया कि प्रत्येक लिंग का ठीक आधा नमूना लिया जाए, तो हमने अनुमानकों के विचलन को कम कर दिया है क्योंकि हमने अपने नमूने में पुरुषों-महिलाओं के असमान अनुपात के कारण होने वाली परिवर्तनशीलता को हटा दिया है।
उदाहरण के लिए, क्लस्टर सैंपलिंग प्रकरण में इकाइयों में समान या असमान चयन संभावनाएँ हो सकती हैं, भले ही उनका [[इंट्रा-क्लास सहसंबंध]] (और हमारे अनुमानकों के विचरण को बढ़ाने का उनका नकारात्मक प्रभाव) हो। स्तरीकृत नमूने के प्रकरण में, संभावनाएं बराबर (ईपीएसईएम) या असमान हो सकती हैं। लेकिन इसकी परवाह किए बिना, प्रतिदर्शी चरण के समय, जनसंख्या में स्तर के आकार पर पूर्व सूचना का उपयोग, हमारे अनुमानकों की सांख्यिकीय दक्षता प्राप्त कर सकता है। उदाहरण के लिए: यदि हम जानते हैं कि लिंग हमारी रुचि के परिणाम से संबंधित है, और यह भी जानते हैं कि कुछ जनसंख्या के लिए पुरुष-महिला अनुपात 50%-50% है। फिर यदि हमने सुनिश्चित किया कि प्रत्येक लिंग का ठीक आधा प्रतिदर्शी लिया जाए, तो हमने अनुमानकों के विचलन को कम कर दिया है क्योंकि हमने अपने नमूने में पुरुषों-महिलाओं के असमान अनुपात के कारण होने वाली परिवर्तनशीलता को हटा दिया है।
अंत में, गैर-कवरेज, गैर-प्रतिक्रिया या आबादी के कुछ स्तर विभाजन (नमूना चरण के दौरान अनुपलब्ध) में समायोजन के मामले में, हम सांख्यिकीय प्रक्रियाओं (जैसे: पोस्ट-स्तरीकरण और अन्य) का उपयोग कर सकते हैं। ऐसी प्रक्रियाओं के परिणाम से नमूनाकरण की संभावनाओं का अनुमान लगाया जा सकता है जो इकाइयों की वास्तविक नमूनाकरण संभावनाओं की तुलना में समान या बहुत भिन्न हैं। इन अनुमानकों की गुणवत्ता सहायक जानकारी की गुणवत्ता और उन्हें बनाने में उपयोग की जाने वाली यादृच्छिक धारणाओं पर लापता डेटा # गुम होने पर निर्भर करती है। यहां तक ​​​​कि जब ये नमूना संभाव्यता अनुमानक (प्रवृत्ति स्कोर) उन अधिकांश घटनाओं को पकड़ने में कामयाब होते हैं जो उन्हें उत्पन्न करते हैं - अनुमानकों पर परिवर्तनीय चयन संभावनाओं का प्रभाव डेटा (अगले खंड में विवरण) के आधार पर छोटा या बड़ा हो सकता है।
अंत में, गैर-कवरेज, गैर-प्रतिक्रिया या आबादी के कुछ स्तर विभाजन (प्रतिदर्शी चरण के समय अनुपलब्ध) में समायोजन के प्रकरण में, हम सांख्यिकीय प्रक्रियाओं (जैसे: पोस्ट-स्तरीकरण और अन्य) का उपयोग कर सकते हैं। ऐसी प्रक्रियाओं के परिणाम से प्रतिदर्शी की संभावनाओं का अनुमान लगाया जा सकता है जो इकाइयों की वास्तविक प्रतिदर्शी संभावनाओं की तुलना में समान या बहुत भिन्न हैं। इन अनुमानकों की गुणवत्ता सहायक जानकारी की गुणवत्ता और उन्हें बनाने में उपयोग की जाने वाली अनियमित धारणाओं पर लापता डेटा # गुम होने पर निर्भर करती है। यहां तक ​​​​कि जब ये प्रतिदर्शी संभाव्यता अनुमानक (प्रवृत्ति स्कोर) उन अधिकांश घटनाओं को पकड़ने में कामयाब होते हैं जो उन्हें उत्पन्न करते हैं - अनुमानकों पर परिवर्तनीय चयन संभावनाओं का प्रभाव डेटा (अगले खंड में विवरण) के आधार पर छोटा या बड़ा हो सकता है।


नमूना डिजाइनों में बड़ी विविधता के कारण (असमान चयन संभावनाओं पर प्रभाव के साथ या बिना), संभावित डिजाइन प्रभाव को पकड़ने के साथ-साथ अनुमानकों के सही विचलन का अनुमान लगाने के लिए विभिन्न सूत्र विकसित किए गए हैं। कभी-कभी, इन विभिन्न डिज़ाइन प्रभावों को एक साथ मिश्रित किया जा सकता है (जैसा कि असमान चयन संभावना और क्लस्टर नमूनाकरण के मामले में, निम्न अनुभागों में अधिक विवरण)। इन फ़ार्मुलों का उपयोग करना है या नहीं, या केवल एसआरएस मान लें, अनुमानक भिन्नता में वृद्धि बनाम पूर्वाग्रह की अपेक्षित मात्रा पर निर्भर करता है (और पद्धतिगत और तकनीकी जटिलता के ऊपरी हिस्से में)।<ref name=Kish1965 />{{rp|426}}
प्रतिदर्शी डिजाइनों में बड़ी विविधता के कारण (असमान चयन संभावनाओं पर प्रभाव के साथ या बिना), संभावित डिजाइन प्रभाव को पकड़ने के साथ-साथ अनुमानकों के सही विचलन का अनुमान लगाने के लिए विभिन्न सूत्र विकसित किए गए हैं। कभी-कभी, इन विभिन्न डिज़ाइन प्रभावों को एक साथ मिश्रित किया जा सकता है (जैसा कि असमान चयन संभावना और क्लस्टर प्रतिदर्शी के प्रकरण में, निम्न अनुभागों में अधिक विवरण)। इन फ़ार्मुलों का उपयोग करना है या नहीं, या केवल एसआरएस मान लें, अनुमानक भिन्नता में वृद्धि बनाम पूर्वाग्रह की अपेक्षित मात्रा पर निर्भर करता है (और पद्धतिगत और तकनीकी जटिलता के ऊपरी हिस्से में)।<ref name=Kish1965 />{{rp|426}}


=== असमान चयन संभावनाएं ===
=== असमान चयन संभावनाएं ===


==== असमान चयन संभावनाओं के स्रोत ====
==== असमान चयन संभावनाओं के स्रोत ====
इकाइयों का नमूना लेने के विभिन्न तरीके हैं ताकि प्रत्येक इकाई के चयन की सटीक समान संभावना हो। ऐसी पद्धतियों को सरल यादृच्छिक नमूना#समान प्रायिकता नमूनाकरण (एपीएसईएम) (ईपीएसईएम) विधियाँ कहा जाता है। अधिक बुनियादी तरीकों में से कुछ सरल यादृच्छिक नमूना (एसआरएस, या तो प्रतिस्थापन के साथ या बिना) और एक निश्चित नमूना आकार प्राप्त करने के लिए [[व्यवस्थित नमूनाकरण]] शामिल हैं। एक यादृच्छिक नमूना आकार के साथ [[बर्नौली नमूनाकरण]] भी है। स्तरीकृत नमूनाकरण और क्लस्टर नमूनाकरण जैसी अधिक उन्नत तकनीकों को भी ईपीएसईएम के रूप में डिजाइन किया जा सकता है। उदाहरण के लिए, क्लस्टर सैंपलिंग में हम प्रत्येक क्लस्टर को प्रायिकता के साथ नमूना लेना सुनिश्चित कर सकते हैं जो उसके आकार के समानुपाती है, और फिर क्लस्टर के अंदर सभी इकाइयों को मापें। क्लस्टर नमूनाकरण के लिए एक अधिक जटिल विधि एक दो-चरण नमूनाकरण का उपयोग करना है जिसके द्वारा हम पहले चरण में क्लस्टर का नमूना लेते हैं (पहले की तरह, क्लस्टर आकार के आनुपातिक), और दूसरे चरण में प्रत्येक क्लस्टर से एक निश्चित अनुपात के साथ SRS का उपयोग करके नमूना लेते हैं ( उदाहरण: क्लस्टर का नमूना आधा)।<ref name = "Frerichs2004">Source: Frerichs, R.R. Rapid Surveys (unpublished), © 2004. N, chapter 4 - Equal Probability of Selection ([http://www.ph.ucla.edu/epi/rapidsurveys/RScourse/chap4rapid_2004.pdf pdf])</ref>{{rp|3–8}}
इकाइयों का प्रतिदर्शी लेने के विभिन्न तरीके हैं जिससे कि प्रत्येक इकाई के चयन की सटीक समान संभावना हो। ऐसी पद्धतियों को सरल अनियमित प्रतिदर्शी#समान प्रायिकता प्रतिदर्शी (एपीएसईएम) (ईपीएसईएम) विधियाँ कहा जाता है। अधिक बुनियादी तरीकों में से कुछ सरल अनियमित प्रतिदर्शी (एसआरएस, या तो प्रतिस्थापन के साथ या बिना) और एक निश्चित प्रतिदर्शी आकार प्राप्त करने के लिए [[व्यवस्थित नमूनाकरण|व्यवस्थित प्रतिदर्शी]] सम्मिलित हैं। एक अनियमित प्रतिदर्शी आकार के साथ [[बर्नौली नमूनाकरण|बर्नौली प्रतिदर्शी]] भी है। स्तरीकृत प्रतिदर्शी और क्लस्टर प्रतिदर्शी जैसी अधिक उन्नत तकनीकों को भी ईपीएसईएम के रूप में डिजाइन किया जा सकता है। उदाहरण के लिए, क्लस्टर सैंपलिंग में हम प्रत्येक क्लस्टर को प्रायिकता के साथ प्रतिदर्शी लेना सुनिश्चित कर सकते हैं जो उसके आकार के समानुपाती है, और फिर क्लस्टर के अंदर सभी इकाइयों को मापें। क्लस्टर प्रतिदर्शी के लिए एक अधिक जटिल विधि एक दो-चरण प्रतिदर्शी का उपयोग करना है जिसके द्वारा हम पहले चरण में क्लस्टर का प्रतिदर्शी लेते हैं (पहले की तरह, क्लस्टर आकार के आनुपातिक), और दूसरे चरण में प्रत्येक क्लस्टर से एक निश्चित अनुपात के साथ SRS का उपयोग करके प्रतिदर्शी लेते हैं ( उदाहरण: क्लस्टर का प्रतिदर्शी आधा)।<ref name = "Frerichs2004">Source: Frerichs, R.R. Rapid Surveys (unpublished), © 2004. N, chapter 4 - Equal Probability of Selection ([http://www.ph.ucla.edu/epi/rapidsurveys/RScourse/chap4rapid_2004.pdf pdf])</ref>{{rp|3–8}}


अपने कार्यों में, लेस्ली किश और अन्य कई ज्ञात कारणों पर प्रकाश डालते हैं जो असमान चयन संभावनाओं को जन्म देते हैं:<ref name=Kish1965 />{{rp|425}}<ref name = "kish1992" />{{rp|185}}<ref name = "Kish1995" />{{rp|69}}<ref name = "Valliant2013" />{{rp|50,395}}<ref name = "Cochran1977" />{{rp|306}}
अपने फलनों में, लेस्ली किश और अन्य कई ज्ञात कारणों पर प्रकाश डालते हैं जो असमान चयन संभावनाओं को जन्म देते हैं:<ref name=Kish1965 />{{rp|425}}<ref name = "kish1992" />{{rp|185}}<ref name = "Kish1995" />{{rp|69}}<ref name = "Valliant2013" />{{rp|50,395}}<ref name = "Cochran1977" />{{rp|306}}
# चयन फ्रेम या प्रक्रिया के कारण अनुपातहीन नमूनाकरण। ऐसा तब होता है जब एक शोधकर्ता उद्देश्यपूर्ण तरीके से अपने नमूने को नमूना विशिष्ट उप-आबादी या समूहों के ऊपर/नीचे डिज़ाइन करता है। ऐसे कई मामले हैं जिनमें ऐसा हो सकता है। उदाहरण के लिए:
# चयन फ्रेम या प्रक्रिया के कारण अनुपातहीन प्रतिदर्शी। ऐसा तब होता है जब एक शोधकर्ता उद्देश्यपूर्ण तरीके से अपने नमूने को प्रतिदर्शी विशिष्ट उप-आबादी या समूहों के ऊपर/नीचे डिज़ाइन करता है। ऐसे कई प्रकरण हैं जिनमें ऐसा हो सकता है। उदाहरण के लिए:
#:* स्तरीकृत नमूनाकरण में#स्तरीकृत नमूनाकरण रणनीतियाँ जब कुछ स्तरों की इकाइयों को अन्य स्तरों की तुलना में बड़ा विचरण करने के लिए जाना जाता है। ऐसे मामलों में, शोधकर्ता का इरादा स्ट्रैटम के बीच भिन्नता के बारे में इस पूर्व ज्ञान का उपयोग करना हो सकता है ताकि ब्याज के कुछ जनसंख्या स्तर के पैरामीटर के अनुमानक के समग्र भिन्नता को कम किया जा सके (जैसे: माध्य)। इसे ''नमूना आकार निर्धारण#स्तरीकृत नमूना आकार'' नामक रणनीति द्वारा प्राप्त किया जा सकता है, जिसमें एक स्तर <math>h</math> उच्च मानक विचलन और कम नमूना लागत के अनुपात में अधिक नमूना लिया गया है (अर्थात: <math>f_h \propto \frac{S_h}{\sqrt{C_h}}</math>, कहाँ <math>S_h</math> में परिणाम का मानक विचलन है <math>h</math>, और <math>C_h</math> से एक तत्व की भर्ती की लागत से संबंधित है <math>h</math>). इष्टतम आवंटन का एक उदाहरण नेमैन का इष्टतम आवंटन है, जब प्रत्येक स्तर की भर्ती के लिए लागत तय की जाती है, तो नमूना आकार होता है: <math>n_h = n\frac{W_h S_{Uh}}{\sum_h W_h S_{Uh}}</math>. जहां योग सभी स्तरों पर है; n कुल नमूना आकार है; <math>n_h</math> स्ट्रैटम एच ​​के लिए नमूना आकार है; <math>W_h = \frac{N_h}{N}</math> समूची जनसंख्या N की तुलना में संस्तर h का सापेक्षिक आकार; और <math>S_{Uh}</math> स्ट्रैटम एच ​​में मानक त्रुटि है। [[इष्टतम डिजाइन]] से संबंधित अवधारणा इष्टतम डिजाइन है।
#:* स्तरीकृत प्रतिदर्शी में#स्तरीकृत प्रतिदर्शी रणनीतियाँ जब कुछ स्तरों की इकाइयों को अन्य स्तरों की तुलना में बड़ा विचरण करने के लिए जाना जाता है। ऐसे प्रकरणों में, शोधकर्ता का इरादा स्ट्रैटम के बीच भिन्नता के बारे में इस पूर्व ज्ञान का उपयोग करना हो सकता है जिससे कि ब्याज के कुछ जनसंख्या स्तर के मापदंड के अनुमानक के समग्र भिन्नता को कम किया जा सके (जैसे: माध्य)। इसे ''प्रतिदर्शी आकार निर्धारण#स्तरीकृत प्रतिदर्शी आकार'' नामक रणनीति द्वारा प्राप्त किया जा सकता है, जिसमें एक स्तर <math>h</math> उच्च मानक विचलन और कम प्रतिदर्शी लागत के अनुपात में अधिक प्रतिदर्शी लिया गया है (अर्थात: <math>f_h \propto \frac{S_h}{\sqrt{C_h}}</math>, जहाँ <math>S_h</math> में परिणाम का मानक विचलन है <math>h</math>, और <math>C_h</math> से एक तत्व की भर्ती की लागत से संबंधित है <math>h</math>). इष्टतम आवंटन का एक उदाहरण नेमैन का इष्टतम आवंटन है, जब प्रत्येक स्तर की भर्ती के लिए लागत तय की जाती है, तो प्रतिदर्शी आकार होता है: <math>n_h = n\frac{W_h S_{Uh}}{\sum_h W_h S_{Uh}}</math>. जहां योग सभी स्तरों पर है; n कुल प्रतिदर्शी आकार है; <math>n_h</math> स्ट्रैटम एच ​​के लिए प्रतिदर्शी आकार है; <math>W_h = \frac{N_h}{N}</math> समूची जनसंख्या N की तुलना में संस्तर h का सापेक्षिक आकार; और <math>S_{Uh}</math> स्ट्रैटम एच ​​में मानक त्रुटि है। [[इष्टतम डिजाइन]] से संबंधित अवधारणा इष्टतम डिजाइन है।
#:* यदि दो स्तरों (जैसे: दो विशिष्ट सामाजिक-जनसांख्यिकीय समूहों के लोग, या दो क्षेत्रों, आदि) की तुलना करने में रुचि है, तो इस मामले में छोटे समूह का अधिक नमूना लिया जा सकता है। इस तरह, दो समूहों की तुलना करने वाले अनुमानक का प्रसरण कम हो जाता है।
#:* यदि दो स्तरों (जैसे: दो विशिष्ट सामाजिक-जनसांख्यिकीय समूहों के लोग, या दो क्षेत्रों, आदि) की तुलना करने में रुचि है, तो इस प्रकरण में छोटे समूह का अधिक प्रतिदर्शी लिया जा सकता है। इस तरह, दो समूहों की तुलना करने वाले अनुमानक का प्रसरण कम हो जाता है।
#:* क्लस्टर सैंपलिंग में विभिन्न आकारों के क्लस्टर हो सकते हैं, लेकिन सरल रैंडम सैंपल का उपयोग करके सभी क्लस्टर्स से प्रक्रिया के नमूने लिए जाते हैं, और क्लस्टर में सभी तत्वों को मापा जाता है (उदाहरण के लिए, यदि क्लस्टर आकार सैंपलिंग के चरण में पहले से ज्ञात नहीं हैं ).
#:* क्लस्टर सैंपलिंग में विभिन्न आकारों के क्लस्टर हो सकते हैं, लेकिन सरल रैंडम सैंपल का उपयोग करके सभी क्लस्टर्स से प्रक्रिया के नमूने लिए जाते हैं, और क्लस्टर में सभी तत्वों को मापा जाता है (उदाहरण के लिए, यदि क्लस्टर आकार सैंपलिंग के चरण में पहले से ज्ञात नहीं हैं ).
#:* दो-चरण के नमूने का उपयोग करते समय ताकि पहले चरण में समूहों को उनके आकार के अनुपात में नमूना लिया जाए (उर्फ: 'पीपीएस' आकार के अनुपात में संभावना), लेकिन फिर दूसरे चरण में केवल इकाइयों की एक विशिष्ट निश्चित संख्या ( उदाहरण: एक या दो) प्रत्येक क्लस्टर से चुने गए हैं - यह सुविधा/बजट विचारों के कारण हो सकता है। इसी तरह का मामला तब होता है जब पहले चरण में पीपीएस का उपयोग करके नमूना लेने का प्रयास किया जाता है, लेकिन प्रत्येक इकाई में तत्वों की संख्या गलत होती है (ताकि कुछ छोटे क्लस्टर में चयन होने की संभावना अधिक हो सकती है। और इसके विपरीत। बड़े समूह जिनमें नमूने लेने की बहुत कम संभावना होती है)। ऐसे मामलों में, पहले चरण में नमूने के फ्रेम में जितनी बड़ी त्रुटियां होंगी - उतनी ही बड़ी आवश्यक असमान चयन संभावनाएं होंगी।<ref name = "Kalton2005" />{{rp|109}}
#:* दो-चरण के नमूने का उपयोग करते समय जिससे कि पहले चरण में समूहों को उनके आकार के अनुपात में प्रतिदर्शी लिया जाए (उर्फ: 'पीपीएस' आकार के अनुपात में संभावना), लेकिन फिर दूसरे चरण में केवल इकाइयों की एक विशिष्ट निश्चित संख्या ( उदाहरण: एक या दो) प्रत्येक क्लस्टर से चुने गए हैं - यह सुविधा/बजट विचारों के कारण हो सकता है। इसी तरह का प्रकरण तब होता है जब पहले चरण में पीपीएस का उपयोग करके प्रतिदर्शी लेने का प्रयास किया जाता है, लेकिन प्रत्येक इकाई में तत्वों की संख्या गलत होती है (जिससे कि कुछ छोटे क्लस्टर में चयन होने की संभावना अधिक हो सकती है। और इसके विपरीत। बड़े समूह जिनमें नमूने लेने की बहुत कम संभावना होती है)। ऐसे प्रकरणों में, पहले चरण में नमूने के फ्रेम में जितनी बड़ी त्रुटियां होंगी - उतनी ही बड़ी आवश्यक असमान चयन संभावनाएं होंगी।<ref name = "Kalton2005" />{{rp|109}}
#:* जब नमूने के लिए उपयोग किए जाने वाले फ्रेम में कुछ वस्तुओं का दोहराव शामिल होता है, इस प्रकार कुछ वस्तुओं के नमूने लेने की संभावना दूसरों की तुलना में अधिक होती है (उदाहरण: यदि नमूना फ्रेम कई सूचियों को मिलाकर बनाया गया था। या यदि उपयोगकर्ताओं को भर्ती किया गया था। कई विज्ञापन चैनल - जिनमें कुछ उपयोगकर्ता कई चैनलों से भर्ती के लिए उपलब्ध हैं, जबकि अन्य केवल एक चैनल से भर्ती होने के लिए उपलब्ध हैं)। इनमें से प्रत्येक मामले में - अलग-अलग इकाइयों में अलग-अलग नमूना लेने की संभावना होगी, इस प्रकार यह नमूनाकरण प्रक्रिया ईपीएसईएम नहीं होगी।<ref name = "Frerichs2004" />{{rp|3–8}}<ref name = "kish1992" />{{rp|186}}
#:* जब नमूने के लिए उपयोग किए जाने वाले फ्रेम में कुछ वस्तुओं का दोहराव सम्मिलित होता है, इस प्रकार कुछ वस्तुओं के नमूने लेने की संभावना दूसरों की तुलना में अधिक होती है (उदाहरण: यदि प्रतिदर्शी फ्रेम कई सूचियों को मिलाकर बनाया गया था। या यदि उपयोगकर्ताओं को भर्ती किया गया था। कई विज्ञापन चैनल - जिनमें कुछ उपयोगकर्ता कई चैनलों से भर्ती के लिए उपलब्ध हैं, जबकि अन्य केवल एक चैनल से भर्ती होने के लिए उपलब्ध हैं)। इनमें से प्रत्येक प्रकरण में - अलग-अलग इकाइयों में अलग-अलग प्रतिदर्शी लेने की संभावना होगी, इस प्रकार यह प्रतिदर्शी प्रक्रिया ईपीएसईएम नहीं होगी।<ref name = "Frerichs2004" />{{rp|3–8}}<ref name = "kish1992" />{{rp|186}}
#:* जब कई अलग-अलग नमूने/फ्रेम संयुक्त होते हैं। उदाहरण के लिए, यदि उत्तरदाताओं की भर्ती के लिए विभिन्न विज्ञापन अभियान चला रहे हैं। या जब अलग-अलग शोधकर्ताओं और/या अलग-अलग समय पर किए गए कई अध्ययनों के परिणामों को जोड़ते हैं (यानी: मेटा-विश्लेषण)।<ref name= "kish1992" />{{rp|188}}
#:* जब कई अलग-अलग नमूने/फ्रेम संयुक्त होते हैं। उदाहरण के लिए, यदि उत्तरदाताओं की भर्ती के लिए विभिन्न विज्ञापन अभियान चला रहे हैं। या जब अलग-अलग शोधकर्ताओं और/या अलग-अलग समय पर किए गए कई अध्ययनों के परिणामों को जोड़ते हैं (अर्थात: मेटा-विश्लेषण)।<ref name= "kish1992" />{{rp|188}}
#: जब अनुपातहीन नमूनाकरण होता है, नमूनाकरण डिजाइन निर्णयों के कारण, शोधकर्ता (कभी-कभी) निर्णय का पता लगाने में सक्षम हो सकता है और सटीक समावेशन संभावना की सटीक गणना कर सकता है। जब इन चयन संभावनाओं का पता लगाना कठिन होता है, तो सहायक चर (जैसे: आयु, लिंग, आदि) से जानकारी के साथ संयुक्त कुछ प्रवृत्ति स्कोर मॉडल का उपयोग करके अनुमान लगाया जा सकता है।
#: जब अनुपातहीन प्रतिदर्शी होता है, प्रतिदर्शी डिजाइन निर्णयों के कारण, शोधकर्ता (कभी-कभी) निर्णय का पता लगाने में सक्षम हो सकता है और सटीक समावेशन संभावना की सटीक गणना कर सकता है। जब इन चयन संभावनाओं का पता लगाना कठिन होता है, तो सहायक चर (जैसे: आयु, लिंग, आदि) से जानकारी के साथ संयुक्त कुछ प्रवृत्ति स्कोर मॉडल का उपयोग करके अनुमान लगाया जा सकता है।
# गैर-कवरेज।<ref name=Kish1965 />{{rp|527,528}} ऐसा होता है, उदाहरण के लिए, यदि लोगों को कुछ पूर्व-निर्धारित सूची के आधार पर नमूना लिया जाता है जिसमें जनसंख्या में सभी लोग शामिल नहीं होते हैं (उदाहरण: एक फ़ोन बुक या किसी सर्वेक्षण में लोगों को भर्ती करने के लिए विज्ञापनों का उपयोग करना)। कुछ लोगों के जानबूझकर बहिष्करण के विरोध में नमूना फ्रेम बनाने में कुछ विफलता के कारण ये लापता इकाइयां गायब हैं (उदाहरण के लिए: नाबालिग, लोग जो वोट नहीं दे सकते हैं, आदि)। नमूना संभावना पर गैर-कवरेज के प्रभाव को विभिन्न सर्वेक्षण स्थितियों में मापने (और समायोजित करने) के लिए मुश्किल माना जाता है, जब तक कि मजबूत धारणा नहीं बनाई जाती।
# गैर-कवरेज।<ref name=Kish1965 />{{rp|527,528}} ऐसा होता है, उदाहरण के लिए, यदि लोगों को कुछ पूर्व-निर्धारित सूची के आधार पर प्रतिदर्शी लिया जाता है जिसमें जनसंख्या में सभी लोग सम्मिलित नहीं होते हैं (उदाहरण: एक फ़ोन बुक या किसी सर्वेक्षण में लोगों को भर्ती करने के लिए विज्ञापनों का उपयोग करना)। कुछ लोगों के जानबूझकर बहिष्करण के विरोध में प्रतिदर्शी फ्रेम बनाने में कुछ विफलता के कारण ये लापता इकाइयां गायब हैं (उदाहरण के लिए: नाबालिग, लोग जो वोट नहीं दे सकते हैं, आदि)। प्रतिदर्शी संभावना पर गैर-कवरेज के प्रभाव को विभिन्न सर्वेक्षण स्थितियों में मापने (और समायोजित करने) के लिए मुश्किल माना जाता है, जब तक कि मजबूत धारणा नहीं बनाई जाती।
# गैर-प्रतिक्रिया। यह उन नमूना इकाइयों पर माप प्राप्त करने में विफलता को संदर्भित करता है जिन्हें मापने का इरादा है। गैर-प्रतिक्रिया के कारण विविध हैं और संदर्भ पर निर्भर करते हैं। एक व्यक्ति अस्थायी रूप से अनुपलब्ध हो सकता है, उदाहरण के लिए यदि वे सर्वेक्षण पूरा होने पर फोन उठाने के लिए उपलब्ध नहीं हैं। एक व्यक्ति कई कारणों से सर्वेक्षण का उत्तर देने से इंकार भी कर सकता है, जैसे: विभिन्न जातीय/जनसांख्यिकीय/सामाजिक-आर्थिक समूहों के लोगों की सामान्य रूप से प्रतिक्रिया देने की विभिन्न प्रवृत्तियाँ; समय व्यतीत करने या डेटा साझा करने के लिए अपर्याप्त प्रोत्साहन; सर्वेक्षण चलाने वाली संस्था की पहचान; जवाब देने में असमर्थता (जैसे: बीमारी, निरक्षरता, या भाषा बाधा के कारण); प्रतिवादी नहीं मिला (उदाहरण: उन्होंने एक अपार्टमेंट स्थानांतरित कर दिया है); एन्कोडिंग या ट्रांसमिशन (यानी: माप त्रुटि) के दौरान प्रतिक्रिया खो गई/नष्ट हो गई। सर्वेक्षणों के संदर्भ में, ये कारण पूरे सर्वेक्षण के उत्तर देने या केवल विशिष्ट प्रश्नों से संबंधित हो सकते हैं।<ref name=Kish1965 />{{rp|532}}<ref name = "kish1992" />{{rp|186}}
# गैर-प्रतिक्रिया। यह उन प्रतिदर्शी इकाइयों पर माप प्राप्त करने में विफलता को संदर्भित करता है जिन्हें मापने का इरादा है। गैर-प्रतिक्रिया के कारण विविध हैं और संदर्भ पर निर्भर करते हैं। एक व्यक्ति अस्थायी रूप से अनुपलब्ध हो सकता है, उदाहरण के लिए यदि वे सर्वेक्षण पूरा होने पर फोन उठाने के लिए उपलब्ध नहीं हैं। एक व्यक्ति कई कारणों से सर्वेक्षण का उत्तर देने से इंकार भी कर सकता है, जैसे: विभिन्न जातीय/जनसांख्यिकीय/सामाजिक-आर्थिक समूहों के लोगों की सामान्य रूप से प्रतिक्रिया देने की विभिन्न प्रवृत्तियाँ; समय व्यतीत करने या डेटा साझा करने के लिए अपर्याप्त प्रोत्साहन; सर्वेक्षण चलाने वाली संस्था की पहचान; जवाब देने में असमर्थता (जैसे: बीमारी, निरक्षरता, या भाषा बाधा के कारण); प्रतिवादी नहीं मिला (उदाहरण: उन्होंने एक अपार्टमेंट स्थानांतरित कर दिया है); एन्कोडिंग या ट्रांसमिशन (अर्थात: माप त्रुटि) के समय प्रतिक्रिया खो गई/नष्ट हो गई। सर्वेक्षणों के संदर्भ में, ये कारण पूरे सर्वेक्षण के उत्तर देने या केवल विशिष्ट प्रश्नों से संबंधित हो सकते हैं।<ref name=Kish1965 />{{rp|532}}<ref name = "kish1992" />{{rp|186}}
# सांख्यिकीय समायोजन। इनमें नमूनाकरण (सांख्यिकी)#स्तरीकृत नमूनाकरण|पोस्ट-स्तरीकरण, [[रेकिंग]], या प्रवृत्ति स्कोर मिलान#प्रवृत्ति स्कोर|प्रवृत्ति स्कोर (अनुमान) मॉडल जैसी विधियाँ शामिल हो सकती हैं - कुछ ज्ञात के लिए नमूने का तदर्थ समायोजन करने के लिए उपयोग किया जाता है ( या अनुमानित) स्तर आकार। इस तरह की प्रक्रियाओं का उपयोग सैंपलिंग त्रुटि से लेकर [[नमूनाकरण त्रुटि]] के अंडर-कवरेज से लेकर गैर-प्रतिक्रिया तक के मुद्दों को कम करने के लिए किया जाता है।<ref>Dever, Jill A., and Richard Valliant. "A comparison of variance estimators for post-stratification to estimated control totals." Survey Methodology 36.1 (2010): 45-56. [https://www.rti.org/publication/comparison-variance-estimators-poststratification-estimated-control-totals/fulltext.pdf (pdf)]</ref>{{rp|45}}<ref name = "kott2006">Kott, Phillip S. "Using calibration weighting to adjust for nonresponse and coverage errors." Survey Methodology 32.2 (2006): 133. [https://www150.statcan.gc.ca/n1/en/pub/12-001-x/2006002/article/9547-eng.pdf (pdf)]</ref> उदाहरण के लिए, यदि एक साधारण यादृच्छिक नमूने का उपयोग किया जाता है, तो पोस्ट-स्तरीकरण (कुछ सहायक जानकारी का उपयोग करके) एक अनुमानक प्रदान नहीं करता है जो केवल एक भारित अनुमानक से समान रूप से बेहतर है। हालाँकि, इसे अधिक मजबूत अनुमानक के रूप में देखा जा सकता है।<ref>Holt, David, and TM Fred Smith. "Post stratification." Journal of the Royal Statistical Society, Series A (General) 142.1 (1979): 33-46. [http://www-stat.wharton.upenn.edu/~dsmall/stat475-f08/hw/poststrat_paper.pdf (pdf)]</ref> वैकल्पिक रूप से, इन विधियों का उपयोग नमूने को कुछ लक्ष्य नियंत्रणों (यानी: ब्याज की जनसंख्या) के समान बनाने के लिए किया जा सकता है, एक प्रक्रिया जिसे मानकीकरण के रूप में भी जाना जाता है।<ref name = "kish1992" />{{rp|187}} ऐसे मामलों में, ये समायोजन निष्पक्ष अनुमानक प्रदान करने में मदद करते हैं (अक्सर बढ़े हुए प्रसरण की लागत के साथ, जैसा कि निम्नलिखित अनुभागों में देखा गया है)। यदि मूल नमूना एक गैर-संभाव्यता नमूनाकरण है, तो स्तरीकरण के बाद के समायोजन बिल्कुल तदर्थ कोटा नमूने के समान हैं।<ref name = "kish1992" />{{rp|188,189}}
# सांख्यिकीय समायोजन। इनमें प्रतिदर्शी (सांख्यिकी)#स्तरीकृत प्रतिदर्शी|पोस्ट-स्तरीकरण, [[रेकिंग]], या प्रवृत्ति स्कोर मिलान#प्रवृत्ति स्कोर|प्रवृत्ति स्कोर (अनुमान) मॉडल जैसी विधियाँ सम्मिलित हो सकती हैं - कुछ ज्ञात के लिए नमूने का तदर्थ समायोजन करने के लिए उपयोग किया जाता है ( या अनुमानित) स्तर आकार। इस तरह की प्रक्रियाओं का उपयोग सैंपलिंग त्रुटि से लेकर [[नमूनाकरण त्रुटि|प्रतिदर्शी त्रुटि]] के अंडर-कवरेज से लेकर गैर-प्रतिक्रिया तक के मुद्दों को कम करने के लिए किया जाता है।<ref>Dever, Jill A., and Richard Valliant. "A comparison of variance estimators for post-stratification to estimated control totals." Survey Methodology 36.1 (2010): 45-56. [https://www.rti.org/publication/comparison-variance-estimators-poststratification-estimated-control-totals/fulltext.pdf (pdf)]</ref>{{rp|45}}<ref name = "kott2006">Kott, Phillip S. "Using calibration weighting to adjust for nonresponse and coverage errors." Survey Methodology 32.2 (2006): 133. [https://www150.statcan.gc.ca/n1/en/pub/12-001-x/2006002/article/9547-eng.pdf (pdf)]</ref> उदाहरण के लिए, यदि एक साधारण अनियमित नमूने का उपयोग किया जाता है, तो पोस्ट-स्तरीकरण (कुछ सहायक जानकारी का उपयोग करके) एक अनुमानक प्रदान नहीं करता है जो केवल एक भारित अनुमानक से समान रूप से बेहतर है। हालाँकि, इसे अधिक मजबूत अनुमानक के रूप में देखा जा सकता है।<ref>Holt, David, and TM Fred Smith. "Post stratification." Journal of the Royal Statistical Society, Series A (General) 142.1 (1979): 33-46. [http://www-stat.wharton.upenn.edu/~dsmall/stat475-f08/hw/poststrat_paper.pdf (pdf)]</ref> वैकल्पिक रूप से, इन विधियों का उपयोग नमूने को कुछ लक्ष्य नियंत्रणों (अर्थात: ब्याज की जनसंख्या) के समान बनाने के लिए किया जा सकता है, एक प्रक्रिया जिसे मानकीकरण के रूप में भी जाना जाता है।<ref name = "kish1992" />{{rp|187}} ऐसे प्रकरणों में, ये समायोजन निष्पक्ष अनुमानक प्रदान करने में मदद करते हैं (अधिकांशतः बढ़े हुए प्रसरण की लागत के साथ, जैसा कि निम्नलिखित अनुभागों में देखा गया है)। यदि मूल प्रतिदर्शी एक गैर-संभाव्यता प्रतिदर्शी है, तो स्तरीकरण के बाद के समायोजन बिल्कुल तदर्थ कोटा नमूने के समान हैं।<ref name = "kish1992" />{{rp|188,189}}


जब नमूना डिजाइन पूरी तरह से ज्ञात हो (कुछ के लिए अग्रणी <math>p_h</math> स्ट्रैट एच से कुछ तत्वों के चयन की संभावना), और गैर-प्रतिक्रिया मापने योग्य है (यानी: हम जानते हैं कि केवल <math>r_h</math> प्रेक्षणों का उत्तर स्ट्रैटा एच में दिया गया है), तो एक सटीक रूप से ज्ञात व्युत्क्रम संभाव्यता भार की गणना स्ट्रैटा एच से प्रत्येक तत्व के लिए की जा सकती है:<math>w_i = \frac{1}{p_h r_h}</math>.<ref name = "kish1992" />{{rp|186}} कभी-कभी एक सांख्यिकीय समायोजन, जैसे पोस्ट-स्तरीकरण या रेकिंग, चयन संभावना का अनुमान लगाने के लिए उपयोग किया जाता है। उदाहरण: नमूने की तुलना करते समय हमारे पास एक ही लक्षित आबादी है, जिसे नियंत्रणों से मिलान के रूप में भी जाना जाता है। अनुमान प्रक्रिया केवल मौजूदा आबादी को वैकल्पिक आबादी में समायोजित करने पर केंद्रित हो सकती है (उदाहरण के लिए, यदि कई क्षेत्रों से पूरे देश में खींचे गए पैनल से एक्सट्रपलेशन करने की कोशिश की जा रही है)। ऐसी स्थिति में, समायोजन कुछ अंशांकन कारक पर केंद्रित हो सकता है <math>c_i</math> और वजन के रूप में गणना की जाएगी <math>w_i = \frac{c_i}{p_h r_h}</math>.<ref name = "kish1992" />{{rp|187}} हालांकि, अन्य मामलों में, कम-कवरेज और गैर-प्रतिक्रिया दोनों को सांख्यिकीय समायोजन के हिस्से के रूप में एक ही बार में तैयार किया जाता है, जो समग्र नमूना संभावना का अनुमान लगाता है (मान लीजिए <math>p_i'</math>). ऐसे मामले में, वजन बस हैं: <math>w_i = \frac{1}{p_i'}</math>. ध्यान दें कि जब सांख्यिकीय समायोजन का उपयोग किया जाता है, <math>w_i</math> अक्सर किसी मॉडल के आधार पर अनुमान लगाया जाता है। निम्नलिखित खंडों में सूत्रीकरण यह मानता है <math>w_i</math> ज्ञात है, जो सांख्यिकीय समायोजन के लिए सही नहीं है (क्योंकि हमारे पास केवल है <math>\widehat w_i</math>). हालांकि, अगर यह माना जाता है कि अनुमान त्रुटि <math>\widehat w_i</math> बहुत छोटा है तो निम्नलिखित वर्गों का उपयोग किया जा सकता है जैसे कि यह ज्ञात था। इस धारणा का सही होना मॉडलिंग के लिए उपयोग किए गए नमूने के आकार पर निर्भर करता है, और विश्लेषण के दौरान ध्यान में रखने योग्य है।
जब प्रतिदर्शी डिजाइन पूरी तरह से ज्ञात हो (कुछ के लिए अग्रणी <math>p_h</math> स्ट्रैट एच से कुछ तत्वों के चयन की संभावना), और गैर-प्रतिक्रिया मापने योग्य है (अर्थात: हम जानते हैं कि केवल <math>r_h</math> प्रेक्षणों का उत्तर स्ट्रैटा एच में दिया गया है), तो एक सटीक रूप से ज्ञात व्युत्क्रम संभाव्यता भार की गणना स्ट्रैटा एच से प्रत्येक तत्व के लिए की जा सकती है:<math>w_i = \frac{1}{p_h r_h}</math>.<ref name = "kish1992" />{{rp|186}} कभी-कभी एक सांख्यिकीय समायोजन, जैसे पोस्ट-स्तरीकरण या रेकिंग, चयन संभावना का अनुमान लगाने के लिए उपयोग किया जाता है। उदाहरण: नमूने की तुलना करते समय हमारे पास एक ही लक्षित आबादी है, जिसे नियंत्रणों से मिलान के रूप में भी जाना जाता है। अनुमान प्रक्रिया केवल सम्मलिता आबादी को वैकल्पिक आबादी में समायोजित करने पर केंद्रित हो सकती है (उदाहरण के लिए, यदि कई क्षेत्रों से पूरे देश में खींचे गए पैनल से एक्सट्रपलेशन करने की कोशिश की जा रही है)। ऐसी स्थिति में, समायोजन कुछ अंशांकन कारक पर केंद्रित हो सकता है <math>c_i</math> और वजन के रूप में गणना की जाएगी <math>w_i = \frac{c_i}{p_h r_h}</math>.<ref name = "kish1992" />{{rp|187}} हालांकि, अन्य प्रकरणों में, कम-कवरेज और गैर-प्रतिक्रिया दोनों को सांख्यिकीय समायोजन के हिस्से के रूप में एक ही बार में तैयार किया जाता है, जो समग्र प्रतिदर्शी संभावना का अनुमान लगाता है (मान लीजिए <math>p_i'</math>). ऐसे प्रकरण में, वजन बस हैं: <math>w_i = \frac{1}{p_i'}</math>. ध्यान दें कि जब सांख्यिकीय समायोजन का उपयोग किया जाता है, <math>w_i</math> अधिकांशतः किसी मॉडल के आधार पर अनुमान लगाया जाता है। निम्नलिखित खंडों में सूत्रीकरण यह मानता है <math>w_i</math> ज्ञात है, जो सांख्यिकीय समायोजन के लिए सही नहीं है (क्योंकि हमारे पास केवल है <math>\widehat w_i</math>). हालांकि, यदि यह माना जाता है कि अनुमान त्रुटि <math>\widehat w_i</math> बहुत छोटा है तो निम्नलिखित वर्गों का उपयोग किया जा सकता है जैसे कि यह ज्ञात था। इस धारणा का सही होना मॉडलिंग के लिए उपयोग किए गए नमूने के आकार पर निर्भर करता है, और विश्लेषण के समय ध्यान में रखने योग्य है।


जब चयन संभावनाएँ भिन्न हो सकती हैं, तो नमूना आकार यादृच्छिक होता है, और जोड़ीदार चयन संभावनाएँ स्वतंत्र होती हैं, हम इसे पॉइसन नमूनाकरण कहते हैं।<ref>Ghosh, Dhiren, and Andrew Vogt. "Sampling methods related to Bernoulli and Poisson Sampling." Proceedings of the Joint Statistical Meetings. American Statistical Association Alexandria, VA, 2002. [http://www.asasrms.org/Proceedings/y2002/Files/JSM2002-001080.pdf (pdf)]</ref>
जब चयन संभावनाएँ भिन्न हो सकती हैं, तो प्रतिदर्शी आकार अनियमित होता है, और जोड़ीदार चयन संभावनाएँ स्वतंत्र होती हैं, हम इसे पॉइसन प्रतिदर्शी कहते हैं।<ref>Ghosh, Dhiren, and Andrew Vogt. "Sampling methods related to Bernoulli and Poisson Sampling." Proceedings of the Joint Statistical Meetings. American Statistical Association Alexandria, VA, 2002. [http://www.asasrms.org/Proceedings/y2002/Files/JSM2002-001080.pdf (pdf)]</ref>




==== अनुमानकों के गुणों का वर्णन करने के लिए डिजाइन आधारित बनाम मॉडल आधारित ====
==== अनुमानकों के गुणों का वर्णन करने के लिए डिजाइन आधारित बनाम मॉडल आधारित ====


अलग-अलग केस वेट के माध्यम से असमान संभाव्यता चयन के लिए समायोजन करते समय (उदाहरण: व्युत्क्रम संभाव्यता भार), हमें ब्याज की मात्रा के लिए विभिन्न प्रकार के अनुमानक मिलते हैं। हॉर्विट्ज़-थॉम्पसन अनुमानक जैसे अनुमानक कुल और जनसंख्या के माध्य के लिए निष्पक्ष अनुमानक (यदि चयन संभावनाएं वास्तव में ज्ञात हैं, या लगभग ज्ञात हैं) प्राप्त करते हैं। Deville और Särndal (1992) ने वजन का उपयोग करने वाले अनुमानकों के लिए "अंशांकन अनुमानक" शब्द गढ़ा, जैसे कि वे कुछ शर्तों को पूरा करते हैं, जैसे कि जनसंख्या के आकार के बराबर वजन का योग। और अधिक आम तौर पर, वजन का भारित योग एक सहायक चर की कुछ मात्रा के बराबर होता है: <math>\sum w_ix_i = X</math> (उदाहरण: कि उत्तरदाताओं की भारित आयु का योग प्रत्येक आयु बकेट में जनसंख्या के आकार के बराबर है)।<ref name = "Sarndal1992_paper">डेविल, जीन-क्लाउड और कार्ल-एरिक सारंडल। सर्वेक्षण नमूने में अंशांकन अनुमानक। जर्नल ऑफ़ द अमेरिकन स्टैटिस्टिकल एसोसिएशन 87.418 (1992): 376-382।</ref><ref name="kott2006"/>{{rp|132}}<ref>Brick, J. Michael, Jill Montaquila, and Shelley Roth. "Identifying problems with raking estimators." annual meeting of the American Statistical Association, San Francisco, CA. 2003. [http://www.asasrms.org/Proceedings/y2003/Files/JSM2003-000472.pdf (pdf)]</ref>{{rp|1}}
अलग-अलग केस वेट के माध्यम से असमान संभाव्यता चयन के लिए समायोजन करते समय (उदाहरण: व्युत्क्रम संभाव्यता भार), हमें ब्याज की मात्रा के लिए विभिन्न प्रकार के अनुमानक मिलते हैं। हॉर्विट्ज़-थॉम्पसन अनुमानक जैसे अनुमानक कुल और जनसंख्या के माध्य के लिए निष्पक्ष अनुमानक (यदि चयन संभावनाएं वास्तव में ज्ञात हैं, या लगभग ज्ञात हैं) प्राप्त करते हैं। Deville और Särndal (1992) ने वजन का उपयोग करने वाले अनुमानकों के लिए "अंशांकन अनुमानक" शब्द गढ़ा, जैसे कि वे कुछ शर्तों को पूरा करते हैं, जैसे कि जनसंख्या के आकार के बराबर वजन का योग। और अधिक सामान्यतः, वजन का भारित योग एक सहायक चर की कुछ मात्रा के बराबर होता है: <math>\sum w_ix_i = X</math> (उदाहरण: कि उत्तरदाताओं की भारित आयु का योग प्रत्येक आयु बकेट में जनसंख्या के आकार के बराबर है)।<ref name = "Sarndal1992_paper">डेविल, जीन-क्लाउड और कार्ल-एरिक सारंडल। सर्वेक्षण नमूने में अंशांकन अनुमानक। जर्नल ऑफ़ द अमेरिकन स्टैटिस्टिकल एसोसिएशन 87.418 (1992): 376-382।</ref><ref name="kott2006"/>{{rp|132}}<ref>Brick, J. Michael, Jill Montaquila, and Shelley Roth. "Identifying problems with raking estimators." annual meeting of the American Statistical Association, San Francisco, CA. 2003. [http://www.asasrms.org/Proceedings/y2003/Files/JSM2003-000472.pdf (pdf)]</ref>{{rp|1}}


अंशांकन अनुमानकों के गुणों के बारे में बहस करने के दो प्राथमिक तरीके हैं:<ref name="kott2006"/>{{rp|133–134}}<ref>Keiding, Niels, and David Clayton. "Standardization and control for confounding in observational studies: a historical perspective." Statistical Science (2014): 529-558. [https://arxiv.org/abs/1503.02853 (pdf)]</ref>
अंशांकन अनुमानकों के गुणों के बारे में बहस करने के दो प्राथमिक तरीके हैं:<ref name="kott2006"/>{{rp|133–134}}<ref>Keiding, Niels, and David Clayton. "Standardization and control for confounding in observational studies: a historical perspective." Statistical Science (2014): 529-558. [https://arxiv.org/abs/1503.02853 (pdf)]</ref>
# यादृच्छिकरण आधारित (या, नमूना डिजाइन आधारित) - इन मामलों में, भार (<math>w_i</math>) और ब्याज के परिणाम के मूल्य <math>y_i</math> नमूने में मापे गए सभी को ज्ञात माना जाता है। इस ढांचे में, परिणाम (Y) के (ज्ञात) मूल्यों में परिवर्तनशीलता है। हालांकि, केवल यादृच्छिकता जनसंख्या में से किस तत्व से नमूने में ली गई थी (अक्सर के रूप में निरूपित किया जाता है <math>I_i</math>, 1 if तत्व प्राप्त करना <math>i</math> नमूने में है और 0 अगर यह नहीं है)। एक साधारण यादृच्छिक नमूने के लिए, प्रत्येक <math>I_i</math> कुछ पैरामीटर के साथ एक स्वतंत्र और समान रूप से वितरित यादृच्छिक चर | i.i.d बर्नौली वितरण होगा <math>p</math>. सामान्य EPSEM के लिए (समान संभावना नमूनाकरण) <math>I_i</math> अभी भी कुछ पैरामीटर के साथ बरनौली होगा <math>p</math>, लेकिन वे अब स्वतंत्रता (संभाव्यता सिद्धांत) यादृच्छिक चर नहीं होंगे। पोस्ट स्तरीकरण जैसी किसी चीज़ के लिए, प्रत्येक स्तर पर तत्वों की संख्या को अलग-अलग बहुराष्ट्रीय वितरण के रूप में तैयार किया जा सकता है <math>p_h</math> कुछ स्तरों से संबंधित प्रत्येक तत्व के लिए समावेशन संभावनाएँ <math>h</math>. इन मामलों में नमूना आकार ही एक यादृच्छिक चर हो सकता है।
# अनियमितरण आधारित (या, प्रतिदर्शी डिजाइन आधारित) - इन प्रकरणों में, भार (<math>w_i</math>) और ब्याज के परिणाम के मूल्य <math>y_i</math> नमूने में मापे गए सभी को ज्ञात माना जाता है। इस ढांचे में, परिणाम (Y) के (ज्ञात) मूल्यों में परिवर्तनशीलता है। हालांकि, केवल अनियमितता जनसंख्या में से किस तत्व से नमूने में ली गई थी (अधिकांशतः के रूप में निरूपित किया जाता है <math>I_i</math>, 1 if तत्व प्राप्त करना <math>i</math> नमूने में है और 0 यदि यह नहीं है)। एक साधारण अनियमित नमूने के लिए, प्रत्येक <math>I_i</math> कुछ मापदंड के साथ एक स्वतंत्र और समान रूप से वितरित अनियमित चर | i.i.d बर्नौली वितरण होगा <math>p</math>. सामान्य EPSEM के लिए (समान संभावना प्रतिदर्शी) <math>I_i</math> अभी भी कुछ मापदंड के साथ बरनौली होगा <math>p</math>, लेकिन वे अब स्वतंत्रता (संभाव्यता सिद्धांत) अनियमित चर नहीं होंगे। पोस्ट स्तरीकरण जैसी किसी चीज़ के लिए, प्रत्येक स्तर पर तत्वों की संख्या को अलग-अलग बहुराष्ट्रीय वितरण के रूप में तैयार किया जा सकता है <math>p_h</math> कुछ स्तरों से संबंधित प्रत्येक तत्व के लिए समावेशन संभावनाएँ <math>h</math>. इन प्रकरणों में प्रतिदर्शी आकार ही एक अनियमित चर हो सकता है।
# मॉडल आधारित - इन मामलों में नमूना तय होता है, वज़न तय होता है, लेकिन ब्याज के परिणाम को एक यादृच्छिक चर के रूप में माना जाता है। उदाहरण के लिए, पोस्ट-स्तरीकरण के मामले में, परिणाम को कुछ [[रेखीय प्रतिगमन]] फ़ंक्शन के रूप में तैयार किया जा सकता है जहां स्वतंत्र चर सूचक चर होते हैं जो प्रत्येक अवलोकन को उसके प्रासंगिक स्तर पर मैप करते हैं, और परिवर्तनशीलता त्रुटि शब्द के साथ आती है।
# मॉडल आधारित - इन प्रकरणों में प्रतिदर्शी तय होता है, वज़न तय होता है, लेकिन ब्याज के परिणाम को एक अनियमित चर के रूप में माना जाता है। उदाहरण के लिए, पोस्ट-स्तरीकरण के प्रकरण में, परिणाम को कुछ [[रेखीय प्रतिगमन]] फलन के रूप में तैयार किया जा सकता है जहां स्वतंत्र चर सूचक चर होते हैं जो प्रत्येक अवलोकन को उसके प्रासंगिक स्तर पर मैप करते हैं, और परिवर्तनशीलता त्रुटि शब्द के साथ आती है।


जैसा कि हम बाद में देखेंगे, साहित्य में कुछ प्रमाण यादृच्छिककरण-आधारित रूपरेखा पर निर्भर करते हैं, जबकि अन्य मॉडल-आधारित परिप्रेक्ष्य पर ध्यान केंद्रित करते हैं। माध्य से भारित माध्य की ओर बढ़ते समय, अधिक जटिलता जुड़ जाती है। उदाहरण के लिए, सर्वेक्षण पद्धति के संदर्भ में अक्सर जनसंख्या के आकार को ही एक अज्ञात मात्रा माना जाता है जिसका अनुमान लगाया जाता है। इसलिए भारित माध्य की गणना वास्तव में एक [[अनुपात अनुमानक]] पर आधारित है, जिसमें अंश पर कुल का एक अनुमानक और भाजक में जनसंख्या के आकार का एक अनुमानक होता है (विचरण की गणना को और अधिक जटिल बनाने के लिए)।<ref>Thomas Lumley (https://stats.stackexchange.com/users/249135/thomas-lumley), How to estimate the (approximate) variance of the weighted mean?, URL (version: 2021-05-25): [https://stats.stackexchange.com/q/525770 link]</ref>
जैसा कि हम बाद में देखेंगे, साहित्य में कुछ प्रमाण अनियमितकरण-आधारित रूपरेखा पर निर्भर करते हैं, जबकि अन्य मॉडल-आधारित परिप्रेक्ष्य पर ध्यान केंद्रित करते हैं। माध्य से भारित माध्य की ओर बढ़ते समय, अधिक जटिलता जुड़ जाती है। उदाहरण के लिए, सर्वेक्षण पद्धति के संदर्भ में अधिकांशतः जनसंख्या के आकार को ही एक अज्ञात मात्रा माना जाता है जिसका अनुमान लगाया जाता है। इसलिए भारित माध्य की गणना वास्तव में एक [[अनुपात अनुमानक]] पर आधारित है, जिसमें अंश पर कुल का एक अनुमानक और भाजक में जनसंख्या के आकार का एक अनुमानक होता है (विचरण की गणना को और अधिक जटिल बनाने के लिए)।<ref>Thomas Lumley (https://stats.stackexchange.com/users/249135/thomas-lumley), How to estimate the (approximate) variance of the weighted mean?, URL (version: 2021-05-25): [https://stats.stackexchange.com/q/525770 link]</ref>




==== सामान्य प्रकार के बाट ====
==== सामान्य प्रकार के बाट ====


वज़न के कई प्रकार (और उपप्रकार) हैं, जिनका उपयोग करने और उनकी व्याख्या करने के विभिन्न तरीके हैं। कुछ भारों के साथ उनके निरपेक्ष मूल्य का कुछ महत्वपूर्ण अर्थ होता है, जबकि अन्य भारों के साथ महत्वपूर्ण भाग एक दूसरे से भारों के सापेक्ष मूल्य होते हैं। यह खंड कुछ अधिक सामान्य प्रकार के वज़न प्रस्तुत करता है ताकि उन्हें अनुवर्ती अनुभागों में संदर्भित किया जा सके।
वज़न के कई प्रकार (और उपप्रकार) हैं, जिनका उपयोग करने और उनकी व्याख्या करने के विभिन्न तरीके हैं। कुछ भारों के साथ उनके निरपेक्ष मूल्य का कुछ महत्वपूर्ण अर्थ होता है, जबकि अन्य भारों के साथ महत्वपूर्ण भाग एक दूसरे से भारों के सापेक्ष मूल्य होते हैं। यह खंड कुछ अधिक सामान्य प्रकार के वज़न प्रस्तुत करता है जिससे कि उन्हें अनुवर्ती अनुभागों में संदर्भित किया जा सके।


* फ्रीक्वेंसी वेट एक बुनियादी प्रकार का वेटिंग है, जिसे सांख्यिकी पाठ्यक्रमों के परिचय में प्रस्तुत किया गया है। इनके साथ, प्रत्येक भार एक पूर्णांक संख्या है जो नमूने में किसी वस्तु की आवृत्ति (आँकड़े) को इंगित करता है। इन्हें कभी-कभी दोहराव (या घटना) भार भी कहा जाता है। विशिष्ट मान का एक निरपेक्ष अर्थ होता है जो वजन बदलने पर खो जाता है (उदाहरण: [[स्केलिंग (ज्यामिति)]])। उदाहरण के लिए: यदि हमारे पास 2 और 3 के आवृत्ति भार मानों के साथ 10 और 20 की संख्याएँ हैं, तो हमारे डेटा को फैलाते समय यह है: 10,10, 20, 20, 20 (इनमें से प्रत्येक आइटम के लिए 1 के भार के साथ)। फ़्रीक्वेंसी वेट में डेटासेट में निहित जानकारी की मात्रा शामिल होती है, और इस प्रकार बेसेल के सुधार का उपयोग करके वेटेड अंकगणितीय माध्य # फ़्रिक्वेंसी वेट अनुमान बनाने जैसी चीज़ों की अनुमति देता है। ध्यान दें कि इस तरह के वजन अक्सर यादृच्छिक चर होते हैं, क्योंकि डेटासेट में प्रत्येक मान से विशिष्ट वस्तुओं की संख्या यादृच्छिक होती है।
* फ्रीक्वेंसी वेट एक बुनियादी प्रकार का वेटिंग है, जिसे सांख्यिकी पाठ्यक्रमों के परिचय में प्रस्तुत किया गया है। इनके साथ, प्रत्येक भार एक पूर्णांक संख्या है जो नमूने में किसी वस्तु की आवृत्ति (आँकड़े) को इंगित करता है। इन्हें कभी-कभी दोहराव (या घटना) भार भी कहा जाता है। विशिष्ट मान का एक निरपेक्ष अर्थ होता है जो वजन बदलने पर खो जाता है (उदाहरण: [[स्केलिंग (ज्यामिति)]])। उदाहरण के लिए: यदि हमारे पास 2 और 3 के आवृत्ति भार मानों के साथ 10 और 20 की संख्याएँ हैं, तो हमारे डेटा को फैलाते समय यह है: 10,10, 20, 20, 20 (इनमें से प्रत्येक आइटम के लिए 1 के भार के साथ)। फ़्रीक्वेंसी वेट में डेटासेट में निहित जानकारी की मात्रा सम्मिलित होती है, और इस प्रकार बेसेल के सुधार का उपयोग करके वेटेड अंकगणितीय माध्य # फ़्रिक्वेंसी वेट अनुमान बनाने जैसी चीज़ों की अनुमति देता है। ध्यान दें कि इस तरह के वजन अधिकांशतः अनियमित चर होते हैं, क्योंकि डेटासेट में प्रत्येक मान से विशिष्ट वस्तुओं की संख्या अनियमित होती है।
* [[व्युत्क्रम-विचरण भार]] तब होता है जब प्रत्येक तत्व को एक भार सौंपा जाता है जो उसके (ज्ञात) विचरण का व्युत्क्रम होता है।<ref>Kalton, Graham. "Standardization: A technique to control for extraneous variables." Journal of the Royal Statistical Society, Series C (Applied Statistics) 17.2 (1968): 118-136.</ref><ref name = "kish1992" />{{rp|187}} जब सभी तत्वों की समान प्रत्याशा होती है, तो [[भारित औसत]] की गणना के लिए ऐसे वज़न का उपयोग करने से सभी भारित औसतों में सबसे कम भिन्नता होती है। सामान्य सूत्रीकरण में, ये भार ज्ञात हैं और यादृच्छिक नहीं हैं (यह विश्वसनीयता भार से संबंधित प्रतीत होता है{{Definition needed|date=June 2021}}).
* [[व्युत्क्रम-विचरण भार]] तब होता है जब प्रत्येक तत्व को एक भार सौंपा जाता है जो उसके (ज्ञात) विचरण का व्युत्क्रम होता है।<ref>Kalton, Graham. "Standardization: A technique to control for extraneous variables." Journal of the Royal Statistical Society, Series C (Applied Statistics) 17.2 (1968): 118-136.</ref><ref name = "kish1992" />{{rp|187}} जब सभी तत्वों की समान प्रत्याशा होती है, तो [[भारित औसत]] की गणना के लिए ऐसे वज़न का उपयोग करने से सभी भारित औसतों में सबसे कम भिन्नता होती है। सामान्य सूत्रीकरण में, ये भार ज्ञात हैं और अनियमित नहीं हैं (यह विश्वसनीयता भार से संबंधित प्रतीत होता है{{Definition needed|date=June 2021}}).
* सामान्यीकृत (उत्तल) वज़न वज़न का एक सेट है जो एक [[उत्तल संयोजन]] बनाता है। यानी: प्रत्येक वजन 0 और 1 के बीच की एक संख्या है, और सभी भारों का योग 1 के बराबर है। (गैर-ऋणात्मक) भारों के किसी भी सेट को प्रत्येक भार को सभी भारों के योग से विभाजित करके सामान्यीकृत भार में बदला जा सकता है, जिससे ये बनते हैं वजन 1 के योग के लिए सामान्यीकृत।
* सामान्यीकृत (उत्तल) वज़न वज़न का एक सेट है जो एक [[उत्तल संयोजन]] बनाता है। अर्थात: प्रत्येक वजन 0 और 1 के बीच की एक संख्या है, और सभी भारों का योग 1 के बराबर है। (गैर-ऋणात्मक) भारों के किसी भी सेट को प्रत्येक भार को सभी भारों के योग से विभाजित करके सामान्यीकृत भार में बदला जा सकता है, जिससे ये बनते हैं वजन 1 के योग के लिए सामान्यीकृत।
: एक संबंधित प्रपत्र नमूना आकार (n) के योग के लिए सामान्य किए गए भार हैं। ये (गैर-ऋणात्मक) वजन नमूना आकार (एन) के बराबर हैं, और उनका मतलब 1 है। वजन के किसी भी सेट को सभी वजन के औसत के साथ प्रत्येक वजन को विभाजित करके नमूना आकार में सामान्यीकृत किया जा सकता है। इन भारों की एक अच्छी सापेक्ष व्याख्या होती है जहां 1 से अधिक वजन वाले तत्व अधिक महत्वपूर्ण होते हैं (उनके सापेक्ष प्रभाव के संदर्भ में, कहते हैं, भारित औसत) फिर औसत अवलोकन, जबकि 1 से छोटे वजन औसत अवलोकन से कम महत्वपूर्ण होते हैं।
: एक संबंधित प्रपत्र प्रतिदर्शी आकार (n) के योग के लिए सामान्य किए गए भार हैं। ये (गैर-ऋणात्मक) वजन प्रतिदर्शी आकार (एन) के बराबर हैं, और उनका मतलब 1 है। वजन के किसी भी सेट को सभी वजन के औसत के साथ प्रत्येक वजन को विभाजित करके प्रतिदर्शी आकार में सामान्यीकृत किया जा सकता है। इन भारों की एक अच्छी सापेक्ष व्याख्या होती है जहां 1 से अधिक वजन वाले तत्व अधिक महत्वपूर्ण होते हैं (उनके सापेक्ष प्रभाव के संदर्भ में, कहते हैं, भारित औसत) फिर औसत अवलोकन, जबकि 1 से छोटे वजन औसत अवलोकन से कम महत्वपूर्ण होते हैं।


* व्युत्क्रम संभाव्यता भार तब होता है जब प्रत्येक तत्व को एक भार दिया जाता है जो उस तत्व के चयन की व्युत्क्रम संभावना के लिए (आनुपातिक) होता है। जैसे, प्रयोग करके <math>w_i = \frac{1}{p_i}</math>.<ref name = "kish1992" />{{rp|185}} व्युत्क्रम संभाव्यता भार के साथ, हम सीखते हैं कि लक्षित आबादी में प्रत्येक तत्व कितनी वस्तुओं का प्रतिनिधित्व करता है। इसलिए, ऐसे भारों का योग ब्याज की लक्षित आबादी का आकार लौटाता है। व्युत्क्रम संभाव्यता भार को 1 के योग के लिए सामान्यीकृत किया जा सकता है या नमूना आकार (n) के योग के लिए सामान्यीकृत किया जा सकता है, और निम्न अनुभागों से कई गणनाओं से समान परिणाम प्राप्त होंगे।
* व्युत्क्रम संभाव्यता भार तब होता है जब प्रत्येक तत्व को एक भार दिया जाता है जो उस तत्व के चयन की व्युत्क्रम संभावना के लिए (आनुपातिक) होता है। जैसे, प्रयोग करके <math>w_i = \frac{1}{p_i}</math>.<ref name = "kish1992" />{{rp|185}} व्युत्क्रम संभाव्यता भार के साथ, हम सीखते हैं कि लक्षित आबादी में प्रत्येक तत्व कितनी वस्तुओं का प्रतिनिधित्व करता है। इसलिए, ऐसे भारों का योग ब्याज की लक्षित आबादी का आकार लौटाता है। व्युत्क्रम संभाव्यता भार को 1 के योग के लिए सामान्यीकृत किया जा सकता है या प्रतिदर्शी आकार (n) के योग के लिए सामान्यीकृत किया जा सकता है, और निम्न अनुभागों से कई गणनाओं से समान परिणाम प्राप्त होंगे।


: जब एक नमूना सरल यादृच्छिक नमूना # समान संभाव्यता नमूनाकरण (ईपीएसएम) होता है तो सभी संभावनाएं समान होती हैं और चयन संभावना के व्युत्क्रम उपज वजन जो एक दूसरे के बराबर होते हैं (वे सभी बराबर होते हैं) <math>\frac{N}{n}= \frac{1}{f}</math>, कहाँ <math>n</math> नमूना आकार है और <math>N</math> जनसंख्या का आकार है)। ऐसे नमूने को सेल्फ वेटिंग सैंपल कहा जाता है।<ref name = "kish1992" />{{rp|193}}
: जब एक प्रतिदर्शी सरल अनियमित प्रतिदर्शी # समान संभाव्यता प्रतिदर्शी (ईपीएसएम) होता है तो सभी संभावनाएं समान होती हैं और चयन संभावना के व्युत्क्रम उपज वजन जो एक दूसरे के बराबर होते हैं (वे सभी बराबर होते हैं) <math>\frac{N}{n}= \frac{1}{f}</math>, जहाँ <math>n</math> प्रतिदर्शी आकार है और <math>N</math> जनसंख्या का आकार है)। ऐसे नमूने को सेल्फ वेटिंग सैंपल कहा जाता है।<ref name = "kish1992" />{{rp|193}}


भारित समायोजनों को लागू करने के अप्रत्यक्ष तरीके भी हैं। उदाहरण के लिए, मौजूदा मामलों को इम्प्यूटेशन (सांख्यिकी) लापता टिप्पणियों (जैसे: गैर-प्रतिक्रिया से) के लिए डुप्लिकेट किया जा सकता है, विचरण के साथ इंप्यूटेशन (सांख्यिकी) #Multiple इंप्यूटेशन जैसे तरीकों का उपयोग करके अनुमान लगाया गया है। डेटा का एक पूरक व्यवहार कुछ मामलों को हटाना (0 का भार देना) है। उदाहरण के लिए, जब अधिक-नमूने वाले समूहों के प्रभाव को कम करना चाहते हैं जो कुछ विश्लेषण के लिए कम आवश्यक हैं। दोनों मामलों की प्रकृति व्युत्क्रम संभाव्यता भार के समान है, लेकिन व्यवहार में आवेदन वजन के एक अतिरिक्त कॉलम को लागू करने के बजाय डेटा की अधिक/कम पंक्तियाँ देता है (इनपुट को कुछ सॉफ़्टवेयर कार्यान्वयन में उपयोग करने के लिए संभावित रूप से सरल बनाता है)। फिर भी, इस तरह के कार्यान्वयन के परिणाम केवल वज़न का उपयोग करने के समान हैं। इसलिए अवलोकनों को हटाने के मामले में डेटा को सामान्य सॉफ़्टवेयर कार्यान्वयन द्वारा आसानी से नियंत्रित किया जा सकता है, पंक्तियों को जोड़ने के मामले में अनिश्चितता के अनुमानों के लिए विशेष समायोजन की आवश्यकता होती है। ऐसा नहीं करने से गलत निष्कर्ष निकल सकते हैं (यानी: अंतर्निहित मुद्दों के वैकल्पिक प्रतिनिधित्व का उपयोग करते समय [[कोई मुफ्त लंच प्रमेय नहीं]] है)।<ref name = "kish1992" />{{rp|189,190}}
भारित समायोजनों को लागू करने के अप्रत्यक्ष तरीके भी हैं। उदाहरण के लिए, सम्मलिता प्रकरणों को इम्प्यूटेशन (सांख्यिकी) लापता टिप्पणियों (जैसे: गैर-प्रतिक्रिया से) के लिए डुप्लिकेट किया जा सकता है, विचरण के साथ इंप्यूटेशन (सांख्यिकी) #Multiple इंप्यूटेशन जैसे तरीकों का उपयोग करके अनुमान लगाया गया है। डेटा का एक पूरक व्यवहार कुछ प्रकरणों को हटाना (0 का भार देना) है। उदाहरण के लिए, जब अधिक-नमूने वाले समूहों के प्रभाव को कम करना चाहते हैं जो कुछ विश्लेषण के लिए कम आवश्यक हैं। दोनों प्रकरणों की प्रकृति व्युत्क्रम संभाव्यता भार के समान है, लेकिन व्यवहार में आवेदन वजन के एक अतिरिक्त कॉलम को लागू करने के अतिरिक्त डेटा की अधिक/कम पंक्तियाँ देता है (इनपुट को कुछ सॉफ़्टवेयर कार्यान्वयन में उपयोग करने के लिए संभावित रूप से सरल बनाता है)। फिर भी, इस तरह के कार्यान्वयन के परिणाम केवल वज़न का उपयोग करने के समान हैं। इसलिए अवलोकनों को हटाने के प्रकरण में डेटा को सामान्य सॉफ़्टवेयर कार्यान्वयन द्वारा आसानी से नियंत्रित किया जा सकता है, पंक्तियों को जोड़ने के प्रकरण में अनिश्चितता के अनुमानों के लिए विशेष समायोजन की आवश्यकता होती है। ऐसा नहीं करने से गलत निष्कर्ष निकल सकते हैं (अर्थात: अंतर्निहित मुद्दों के वैकल्पिक प्रतिनिधित्व का उपयोग करते समय [[कोई मुफ्त लंच प्रमेय नहीं]] है)।<ref name = "kish1992" />{{rp|189,190}}


किश द्वारा गढ़ा गया हापज़र्ड वेट शब्द का उपयोग उन वेट को संदर्भित करने के लिए किया जाता है जो असमान चयन संभावनाओं के लिए डिज़ाइन प्रभाव # स्रोत के अनुरूप होते हैं, लेकिन वे जो चयनित तत्वों की अपेक्षा या विचरण से संबंधित नहीं होते हैं।<ref name= "kish1992" />{{rp|190,191}}
किश द्वारा गढ़ा गया हापज़र्ड वेट शब्द का उपयोग उन वेट को संदर्भित करने के लिए किया जाता है जो असमान चयन संभावनाओं के लिए डिज़ाइन प्रभाव # स्रोत के अनुरूप होते हैं, लेकिन वे जो चयनित तत्वों की अपेक्षा या विचरण से संबंधित नहीं होते हैं।<ref name= "kish1992" />{{rp|190,191}}
Line 129: Line 130:
===== सूत्र =====
===== सूत्र =====


का अप्रतिबंधित नमूना लेते समय <math>n</math> तत्वों, फिर हम इन तत्वों को बेतरतीब ढंग से विभाजित कर सकते हैं <math>H</math> [[अलग करना सेट]] स्ट्रैटम, उनमें से प्रत्येक में कुछ आकार होता है <math>n_h</math> तत्व ताकि <math>\sum\limits_{h=1}^H n_h = n</math>. प्रत्येक स्तर में सभी तत्व <math>h</math> उन्हें कुछ (ज्ञात) गैर-नकारात्मक भार सौंपा गया है (<math>w_h</math>). भार <math>w_h</math> कुछ डिजाइन प्रभाव के व्युत्क्रम द्वारा उत्पादित किया जा सकता है # प्रत्येक स्तर में तत्वों के लिए असमान चयन संभावनाओं के स्रोत <math>h</math> (यानी: पोस्ट-स्तरीकरण जैसी किसी चीज़ के बाद व्युत्क्रम संभाव्यता भार)। इस सेटिंग में, किश का डिज़ाइन प्रभाव, इस डिज़ाइन के कारण नमूना भारित अंकगणितीय माध्य के विचरण में वृद्धि के लिए (भार में परिलक्षित), बनाम कुछ परिणाम चर y का सरल यादृच्छिक नमूना (जब वज़न और के बीच कोई संबंध नहीं है) परिणाम, यानी: बेतरतीब वजन) है:<ref name=Kish1965/>{{rp|427}}<ref name="kish1992"/>{{rp|191(4.2)}}
का अप्रतिबंधित प्रतिदर्शी लेते समय <math>n</math> तत्वों, फिर हम इन तत्वों को बेतरतीब ढंग से विभाजित कर सकते हैं <math>H</math> [[अलग करना सेट]] स्ट्रैटम, उनमें से प्रत्येक में कुछ आकार होता है <math>n_h</math> तत्व जिससे कि <math>\sum\limits_{h=1}^H n_h = n</math>. प्रत्येक स्तर में सभी तत्व <math>h</math> उन्हें कुछ (ज्ञात) गैर-नकारात्मक भार सौंपा गया है (<math>w_h</math>). भार <math>w_h</math> कुछ डिजाइन प्रभाव के व्युत्क्रम द्वारा उत्पादित किया जा सकता है # प्रत्येक स्तर में तत्वों के लिए असमान चयन संभावनाओं के स्रोत <math>h</math> (अर्थात: पोस्ट-स्तरीकरण जैसी किसी चीज़ के बाद व्युत्क्रम संभाव्यता भार)। इस सेटिंग में, किश का डिज़ाइन प्रभाव, इस डिज़ाइन के कारण प्रतिदर्शी भारित अंकगणितीय माध्य के विचरण में वृद्धि के लिए (भार में परिलक्षित), बनाम कुछ परिणाम चर y का सरल अनियमित प्रतिदर्शी (जब वज़न और के बीच कोई संबंध नहीं है) परिणाम, अर्थात: बेतरतीब वजन) है:<ref name=Kish1965/>{{rp|427}}<ref name="kish1992"/>{{rp|191(4.2)}}


: <math>D_{eff} = \frac{ n \sum\limits_{h=1}^H (n_h w_h^2) } { \sum\limits_{h=1}^H (n_h w_h)^2 } </math>
: <math>D_{eff} = \frac{ n \sum\limits_{h=1}^H (n_h w_h^2) } { \sum\limits_{h=1}^H (n_h w_h)^2 } </math>
Line 138: Line 139:
सूत्र का यह संस्करण तब मान्य होता है जब एक स्तर से कई अवलोकन लिए जाते हैं (अर्थात: प्रत्येक का वजन समान होता है), या जब बहुत सारे स्तर होते हैं तो उनमें से प्रत्येक का एक अवलोकन होता है, लेकिन उनमें से कई का समान होता है चयन की संभावना। जबकि व्याख्या थोड़ी अलग है, दो परिदृश्यों की गणना समान होती है।
सूत्र का यह संस्करण तब मान्य होता है जब एक स्तर से कई अवलोकन लिए जाते हैं (अर्थात: प्रत्येक का वजन समान होता है), या जब बहुत सारे स्तर होते हैं तो उनमें से प्रत्येक का एक अवलोकन होता है, लेकिन उनमें से कई का समान होता है चयन की संभावना। जबकि व्याख्या थोड़ी अलग है, दो परिदृश्यों की गणना समान होती है।


ध्यान दें कि डिज़ाइन प्रभाव की किश की परिभाषा वज़न के भिन्नता के गुणांक (जिसे सापेक्ष भिन्नता, प्रासंगिकता या रिलावर भी कहा जाता है) से निकटता से जुड़ी हुई है (मानक विचलन का उपयोग करते समय#असंशोधित नमूना मानक विचलन|असंशोधित (जनसंख्या स्तर) नमूना मानक विचलन भिन्नता के गुणांक # अनुमान के लिए)। साहित्य में इसकी कई सूचनाएं हैं:<ref name="kish1992"/>{{rp|191}}<ref name = "Valliant2013" />{{rp|396}}
ध्यान दें कि डिज़ाइन प्रभाव की किश की परिभाषा वज़न के भिन्नता के गुणांक (जिसे सापेक्ष भिन्नता, प्रासंगिकता या रिलावर भी कहा जाता है) से निकटता से जुड़ी हुई है (मानक विचलन का उपयोग करते समय#असंशोधित प्रतिदर्शी मानक विचलन|असंशोधित (जनसंख्या स्तर) प्रतिदर्शी मानक विचलन भिन्नता के गुणांक # अनुमान के लिए)। साहित्य में इसकी कई सूचनाएं हैं:<ref name="kish1992"/>{{rp|191}}<ref name = "Valliant2013" />{{rp|396}}


: <math>D_{eff} = 1 + L = 1 + {C_V}^2 = 1 + relvar(w) = 1 + \frac{V(w)}{{\bar w}^2}</math>.
: <math>D_{eff} = 1 + L = 1 + {C_V}^2 = 1 + relvar(w) = 1 + \frac{V(w)}{{\bar w}^2}</math>.


कहाँ <math>V(w) = \frac{\sum(w_i - \bar w)^2}{n}</math> का जनसंख्या विचरण है <math>w</math>, और <math>\bar w = \frac{\sum w_i}{n}</math> मतलब है। जब वज़न को नमूना आकार के लिए सामान्यीकृत किया जाता है (ताकि उनका योग n के बराबर हो और उनका माध्य 1 के बराबर हो), तब <math>{C_V}^2 = V(w)</math> और सूत्र कम हो जाता है <math>D_{eff} = 1 + V(w)</math>. हालांकि यह सच है कि हम मानते हैं कि वजन तय हो गया है, हम उनके भिन्नता के बारे में सोच सकते हैं क्योंकि नमूनाकरण (समान संभावना के साथ) वजन के हमारे सेट से एक वजन (इसी तरह हम सहसंबंध के बारे में कैसे सोचेंगे) द्वारा परिभाषित एक [[अनुभवजन्य वितरण समारोह]] के भिन्नता के रूप में एक साधारण रेखीय प्रतिगमन में x और y का # प्रतिगमन रेखा को फ़िट करना)।
जहाँ <math>V(w) = \frac{\sum(w_i - \bar w)^2}{n}</math> का जनसंख्या विचरण है <math>w</math>, और <math>\bar w = \frac{\sum w_i}{n}</math> मतलब है। जब वज़न को प्रतिदर्शी आकार के लिए सामान्यीकृत किया जाता है (जिससे कि उनका योग n के बराबर हो और उनका माध्य 1 के बराबर हो), तब <math>{C_V}^2 = V(w)</math> और सूत्र कम हो जाता है <math>D_{eff} = 1 + V(w)</math>. हालांकि यह सच है कि हम मानते हैं कि वजन तय हो गया है, हम उनके भिन्नता के बारे में सोच सकते हैं क्योंकि प्रतिदर्शी (समान संभावना के साथ) वजन के हमारे सेट से एक वजन (इसी तरह हम सहसंबंध के बारे में कैसे सोचेंगे) द्वारा परिभाषित एक [[अनुभवजन्य वितरण समारोह|अनुभवजन्य वितरण फलन]] के भिन्नता के रूप में एक साधारण रेखीय प्रतिगमन में x और y का # प्रतिगमन रेखा को फ़िट करना)।


{{hidden begin|style=width:60%|ta1=center|border=1px #aaa solid|title=[Proof]}}
{{hidden begin|style=width:60%|ta1=center|border=1px #aaa solid|title=[Proof]}}
Line 160: Line 161:
===== अनुमान और प्रमाण =====
===== अनुमान और प्रमाण =====


उपरोक्त सूत्र डिजाइन प्रभाव # सामान्य प्रकार के वजन के आधार पर भारित माध्य के भिन्नता में वृद्धि देता है| अव्यवस्थित भार, जो दर्शाता है कि जब y का चयन डिज़ाइन प्रभाव # असमान चयन संभावनाओं के लिए स्रोतों का उपयोग करके किया गया है (बिना क्लस्टर के भीतर कोई संबंध नहीं है, और परिणाम माप की प्रत्याशा या विचरण से कोई संबंध नहीं है);<ref name= "kish1992" />{{rp|190,191}} और y' वे प्रेक्षण हैं जो हमें प्राप्त होते अगर हम उन्हें सरल यादृच्छिक नमूने से प्राप्त करते, तो:
उपरोक्त सूत्र डिजाइन प्रभाव # सामान्य प्रकार के वजन के आधार पर भारित माध्य के भिन्नता में वृद्धि देता है| अव्यवस्थित भार, जो दर्शाता है कि जब y का चयन डिज़ाइन प्रभाव # असमान चयन संभावनाओं के लिए स्रोतों का उपयोग करके किया गया है (बिना क्लस्टर के अंतर्गत कोई संबंध नहीं है, और परिणाम माप की प्रत्याशा या विचरण से कोई संबंध नहीं है);<ref name= "kish1992" />{{rp|190,191}} और y' वे प्रेक्षण हैं जो हमें प्राप्त होते यदि हम उन्हें सरल अनियमित नमूने से प्राप्त करते, तो:


<math>D_{eff (kish)} =\frac{var\left(\bar{y}_w\right)}{var\left(\bar{y}'\right)} =  \frac{var\left(\frac{ \sum\limits_{i=1}^n w_i y_i}{\sum\limits_{i=1}^n w_i} \right)}{ var\left( \frac{\sum\limits_{i=1}^n y_i'}{n} \right)}</math>
<math>D_{eff (kish)} =\frac{var\left(\bar{y}_w\right)}{var\left(\bar{y}'\right)} =  \frac{var\left(\frac{ \sum\limits_{i=1}^n w_i y_i}{\sum\limits_{i=1}^n w_i} \right)}{ var\left( \frac{\sum\limits_{i=1}^n y_i'}{n} \right)}</math>
एक डिजाइन प्रभाव से # डिजाइन आधारित बनाम मॉडल अनुमानकों के गुणों का वर्णन करने के लिए आधारित,<ref name = "Gabler1999">Gabler, Siegfried, Sabine Häder, and Partha Lahiri. "A model based justification of Kish's formula for design effects for weighting and clustering." Survey Methodology 25 (1999): 105–106. ([https://www150.statcan.gc.ca/n1/en/pub/12-001-x/1999001/article/4718-eng.pdf?st=kP7KrrRP pdf])</ref> यह सूत्र तब मान्य होता है जब सभी n अवलोकन (<math>y_1, ..., y_n</math>) हैं (कम से कम लगभग) असंबद्धता (संभावना सिद्धांत) (<math>\forall (i \neq j): cor(y_i, y_j) = 0</math>), समान विचरण के साथ (<math>\sigma^2</math>) ब्याज की प्रतिक्रिया चर (y) में। यह यह भी मानता है कि वजन स्वयं एक यादृच्छिक चर नहीं है, बल्कि कुछ ज्ञात स्थिरांक हैं (उदाहरण: चयन की संभावना का व्युत्क्रम, कुछ पूर्व-निर्धारित और ज्ञात [[नमूनाकरण (सांख्यिकी)]] के लिए)।
एक डिजाइन प्रभाव से # डिजाइन आधारित बनाम मॉडल अनुमानकों के गुणों का वर्णन करने के लिए आधारित,<ref name = "Gabler1999">Gabler, Siegfried, Sabine Häder, and Partha Lahiri. "A model based justification of Kish's formula for design effects for weighting and clustering." Survey Methodology 25 (1999): 105–106. ([https://www150.statcan.gc.ca/n1/en/pub/12-001-x/1999001/article/4718-eng.pdf?st=kP7KrrRP pdf])</ref> यह सूत्र तब मान्य होता है जब सभी n अवलोकन (<math>y_1, ..., y_n</math>) हैं (कम से कम लगभग) असंबद्धता (संभावना सिद्धांत) (<math>\forall (i \neq j): cor(y_i, y_j) = 0</math>), समान विचरण के साथ (<math>\sigma^2</math>) ब्याज की प्रतिक्रिया चर (y) में। यह यह भी मानता है कि वजन स्वयं एक अनियमित चर नहीं है, बल्कि कुछ ज्ञात स्थिरांक हैं (उदाहरण: चयन की संभावना का व्युत्क्रम, कुछ पूर्व-निर्धारित और ज्ञात [[नमूनाकरण (सांख्यिकी)|प्रतिदर्शी (सांख्यिकी)]] के लिए)।


{{hidden begin|style=width:60%|ta1=center|border=1px #aaa solid|title=[Proof]}}
{{hidden begin|style=width:60%|ta1=center|border=1px #aaa solid|title=[Proof]}}
Line 201: Line 202:
{{hidden end}}
{{hidden end}}


यदि y प्रेक्षण स्वतंत्र हैं और समान रूप से वितरित रैंडम वेरिएबल्स|i.i.d समान [[अपेक्षित मूल्य]] और भिन्नता के साथ हैं, तो y पर स्थितियां तुच्छ रूप से आयोजित की जाती हैं। ऐसे में हमारे पास है <math>y=y'</math>, और हम अनुमान लगा सकते हैं <math>var\left(\bar{y}_w\right)</math> का उपयोग करके <math>\overline{var\left(\bar{y}_w\right)} = \overline{var\left(\bar{y}\right)} \times D_{eff}</math>.<ref name = "kish1992" /><ref>Little, Roderick J., and Sonya Vartivarian. "Does weighting for nonresponse increase the variance of survey means?." Survey Methodology 31.2 (2005): 161. [https://www150.statcan.gc.ca/n1/pub/12-001-x/2005002/article/9046-eng.pdf pdf link]</ref> यदि y सभी समान अपेक्षाओं के साथ नहीं हैं तो हम गणना के लिए अनुमानित भिन्नता का उपयोग नहीं कर सकते हैं, क्योंकि यह अनुमान मानता है कि सभी <math>y_i</math>की एक ही अपेक्षा है। विशेष रूप से, यदि वजन और परिणाम चर y के बीच एक संबंध है, तो इसका मतलब है कि y की अपेक्षा सभी टिप्पणियों के लिए समान नहीं है (बल्कि, प्रत्येक अवलोकन के लिए विशिष्ट वजन मान पर निर्भर है)। ऐसे मामले में, जबकि डिज़ाइन प्रभाव सूत्र अभी भी सही हो सकता है (यदि अन्य शर्तों को पूरा किया जाता है), भारित माध्य के भिन्नता के लिए इसे एक अलग अनुमानक की आवश्यकता होगी। उदाहरण के लिए, भारित अंकगणितीय माध्य#भारित नमूना प्रसरण का उपयोग करना बेहतर हो सकता है।
यदि y प्रेक्षण स्वतंत्र हैं और समान रूप से वितरित रैंडम वेरिएबल्स|i.i.d समान [[अपेक्षित मूल्य]] और भिन्नता के साथ हैं, तो y पर स्थितियां तुच्छ रूप से आयोजित की जाती हैं। ऐसे में हमारे पास है <math>y=y'</math>, और हम अनुमान लगा सकते हैं <math>var\left(\bar{y}_w\right)</math> का उपयोग करके <math>\overline{var\left(\bar{y}_w\right)} = \overline{var\left(\bar{y}\right)} \times D_{eff}</math>.<ref name = "kish1992" /><ref>Little, Roderick J., and Sonya Vartivarian. "Does weighting for nonresponse increase the variance of survey means?." Survey Methodology 31.2 (2005): 161. [https://www150.statcan.gc.ca/n1/pub/12-001-x/2005002/article/9046-eng.pdf pdf link]</ref> यदि y सभी समान अपेक्षाओं के साथ नहीं हैं तो हम गणना के लिए अनुमानित भिन्नता का उपयोग नहीं कर सकते हैं, क्योंकि यह अनुमान मानता है कि सभी <math>y_i</math>की एक ही अपेक्षा है। विशेष रूप से, यदि वजन और परिणाम चर y के बीच एक संबंध है, तो इसका मतलब है कि y की अपेक्षा सभी टिप्पणियों के लिए समान नहीं है (बल्कि, प्रत्येक अवलोकन के लिए विशिष्ट वजन मान पर निर्भर है)। ऐसे प्रकरण में, जबकि डिज़ाइन प्रभाव सूत्र अभी भी सही हो सकता है (यदि अन्य शर्तों को पूरा किया जाता है), भारित माध्य के भिन्नता के लिए इसे एक अलग अनुमानक की आवश्यकता होगी। उदाहरण के लिए, भारित अंकगणितीय माध्य#भारित प्रतिदर्शी प्रसरण का उपयोग करना बेहतर हो सकता है।


यदि अलग हो तो <math>y_i</math>s के अलग-अलग प्रसरण हैं, तो जबकि भारित प्रसरण सही जनसंख्या-स्तर विचरण को पकड़ सकता है, डिजाइन प्रभाव के लिए किश का सूत्र अब सत्य नहीं हो सकता है।
यदि अलग हो तो <math>y_i</math>s के अलग-अलग प्रसरण हैं, तो जबकि भारित प्रसरण सही जनसंख्या-स्तर विचरण को पकड़ सकता है, डिजाइन प्रभाव के लिए किश का सूत्र अब सत्य नहीं हो सकता है।


इसी तरह की समस्या तब होती है जब नमूनों में कुछ सहसंबंध संरचना होती है (जैसे क्लस्टर नमूनाकरण का उपयोग करते समय)।
इसी तरह की समस्या तब होती है जब नमूनों में कुछ सहसंबंध संरचना होती है (जैसे क्लस्टर प्रतिदर्शी का उपयोग करते समय)।


===== साहित्य में वैकल्पिक परिभाषाएँ =====
===== साहित्य में वैकल्पिक परिभाषाएँ =====


यह ध्यान देने योग्य है कि साहित्य के कुछ स्रोत किश के डिजाइन प्रभाव के लिए निम्नलिखित वैकल्पिक परिभाषा देते हैं, जिसमें कहा गया है: भारित सर्वेक्षण के विचरण का अनुपात अनुपातहीन स्तरीकृत नमूनाकरण के तहत स्तरीकृत नमूनाकरण # स्तरीकृत नमूनाकरण रणनीतियों के तहत भिन्नता का अनुपात है। स्तर इकाई प्रसरण बराबर हैं।<ref name = "Kimberly2015" />{{rp|318}}<ref name = "Valliant2013" />{{rp|396}}
यह ध्यान देने योग्य है कि साहित्य के कुछ स्रोत किश के डिजाइन प्रभाव के लिए निम्नलिखित वैकल्पिक परिभाषा देते हैं, जिसमें कहा गया है: भारित सर्वेक्षण के विचरण का अनुपात अनुपातहीन स्तरीकृत प्रतिदर्शी के अनुसार स्तरीकृत प्रतिदर्शी # स्तरीकृत प्रतिदर्शी रणनीतियों के अनुसार भिन्नता का अनुपात है। स्तर इकाई प्रसरण बराबर हैं।<ref name = "Kimberly2015" />{{rp|318}}<ref name = "Valliant2013" />{{rp|396}}


यह परिभाषा थोड़ी भ्रामक हो सकती है, क्योंकि इसका अर्थ यह लगाया जा सकता है कि स्तरीकृत नमूनाकरण के माध्यम से आनुपातिक स्तरीकृत नमूनाकरण प्राप्त किया गया था, जिसमें प्रत्येक स्तर से इकाइयों की पूर्व-निर्धारित संख्या का चयन किया जाता है। इस तरह के चयन से विचरण में कमी आएगी (सरल यादृच्छिक नमूने की तुलना में), क्योंकि यह प्रति स्ट्रैटम में तत्वों की विशिष्ट संख्या में कुछ अनिश्चितता को दूर करता है। यह किश की मूल परिभाषा से भिन्न है, जिसने डिजाइन के विचरण की तुलना एक साधारण यादृच्छिक नमूने से की थी (जो नमूना के अनुपात में लगभग संभाव्यता उत्पन्न करेगा, लेकिन बिल्कुल नहीं - प्रत्येक स्तर में नमूना आकार में भिन्नता के कारण)। पार्क और ली (2006) यह कहते हुए इस पर प्रतिबिंबित करते हैं कि उपरोक्त व्युत्पत्ति के पीछे तर्क यह है कि अव्यवस्थित असमान भार के कारण [भारित माध्य] की सटीकता में हानि को अनुपातहीन स्तरीकृत नमूने के तहत विचरण के अनुपात से अनुमानित किया जा सकता है। आनुपातिक स्तरीकृत नमूने के तहत।<ref name = "park2006" />{{rp|8}} ये दोनों परिभाषाएँ एक-दूसरे से कितनी दूर हैं, साहित्य में इसका उल्लेख नहीं है।{{Citation needed|reason=I wasn't able to find a reference that explains how far these two definitions are from each other. There may be one. Once someone finds such a reference, this sentence needs to be updated|date=June 2021}} 1977 से अपनी पुस्तक में, कोचरन इष्टतम आवंटन से विचलन के कारण प्रसरण में आनुपातिक वृद्धि के लिए एक सूत्र प्रदान करता है (किश के सूत्रों को एल कहा जाएगा)।<ref name = "sarndal1992" />{{rp|116}} हालांकि, किश के L से उस सूत्र का संबंध स्पष्ट नहीं है।{{Citation needed|reason=I don't see the direct connection. Maybe others can and may add a proof, or another source in the literature shows it|date=June 2021}}
यह परिभाषा थोड़ी भ्रामक हो सकती है, क्योंकि इसका अर्थ यह लगाया जा सकता है कि स्तरीकृत प्रतिदर्शी के माध्यम से आनुपातिक स्तरीकृत प्रतिदर्शी प्राप्त किया गया था, जिसमें प्रत्येक स्तर से इकाइयों की पूर्व-निर्धारित संख्या का चयन किया जाता है। इस तरह के चयन से विचरण में कमी आएगी (सरल अनियमित नमूने की तुलना में), क्योंकि यह प्रति स्ट्रैटम में तत्वों की विशिष्ट संख्या में कुछ अनिश्चितता को दूर करता है। यह किश की मूल परिभाषा से भिन्न है, जिसने डिजाइन के विचरण की तुलना एक साधारण अनियमित नमूने से की थी (जो प्रतिदर्शी के अनुपात में लगभग संभाव्यता उत्पन्न करेगा, लेकिन बिल्कुल नहीं - प्रत्येक स्तर में प्रतिदर्शी आकार में भिन्नता के कारण)। पार्क और ली (2006) यह कहते हुए इस पर प्रतिबिंबित करते हैं कि उपरोक्त व्युत्पत्ति के पीछे तर्क यह है कि अव्यवस्थित असमान भार के कारण [भारित माध्य] की सटीकता में हानि को अनुपातहीन स्तरीकृत नमूने के अनुसार विचरण के अनुपात से अनुमानित किया जा सकता है। आनुपातिक स्तरीकृत नमूने के अनुसार।<ref name = "park2006" />{{rp|8}} ये दोनों परिभाषाएँ एक-दूसरे से कितनी दूर हैं, साहित्य में इसका उल्लेख नहीं है।{{Citation needed|reason=I wasn't able to find a reference that explains how far these two definitions are from each other. There may be one. Once someone finds such a reference, this sentence needs to be updated|date=June 2021}} 1977 से अपनी पुस्तक में, कोचरन इष्टतम आवंटन से विचलन के कारण प्रसरण में आनुपातिक वृद्धि के लिए एक सूत्र प्रदान करता है (किश के सूत्रों को एल कहा जाएगा)।<ref name = "sarndal1992" />{{rp|116}} हालांकि, किश के L से उस सूत्र का संबंध स्पष्ट नहीं है।{{Citation needed|reason=I don't see the direct connection. Maybe others can and may add a proof, or another source in the literature shows it|date=June 2021}}


===== वैकल्पिक नामकरण परंपराएं =====
===== वैकल्पिक नामकरण परंपराएं =====
Line 219: Line 220:


===== अनुमानित कुल के लिए स्पेंसर का डेफ (<math>\hat Y</math>) =====
===== अनुमानित कुल के लिए स्पेंसर का डेफ (<math>\hat Y</math>) =====
कुल के लिए अनुमानक प्रतिस्थापन अनुमानक के साथ पी-विस्तारित है (उर्फ: pwr-अनुमानक या हॉर्विट्ज़-थॉम्पसन अनुमानक)। यह एम मदों के एक साधारण यादृच्छिक नमूने (प्रतिस्थापन के साथ, निरूपित SIR) पर आधारित है (<math>y_k</math>) आकार एम की आबादी से। प्रत्येक आइटम की संभावना है <math>p_k</math> (k से 1 से N) को एक ड्रॉ में निकाला जाना है (<math>\sum_U p_k = 1</math>, यानी: यह एक बहुराष्ट्रीय वितरण है)। संभावना है कि एक विशिष्ट <math>y_k</math> हमारे नमूने में दिखाई देगा <math>p_k</math>. प्रतिस्थापन मूल्य के साथ पी-विस्तार है <math>Z_i = \frac{y_k}{p_k}</math> निम्नलिखित प्रत्याशा के साथ: <math>E[Z_i] = E[I_i \frac{y_k}{p_k}] = \frac{y_k}{p_k} E[I_i] = \frac{y_k}{p_k} p_k = y_k</math>. इस तरह <math>\hat Y_{pwr} = \frac{1}{m} \sum_i^m Z_i </math>, pwr-आकलक, y के कुल योग के लिए एक निष्पक्ष अनुमानक है।<ref name="sarndal1992" />{{rp|51}}
कुल के लिए अनुमानक प्रतिस्थापन अनुमानक के साथ पी-विस्तारित है (उर्फ: pwr-अनुमानक या हॉर्विट्ज़-थॉम्पसन अनुमानक)। यह एम मदों के एक साधारण अनियमित नमूने (प्रतिस्थापन के साथ, निरूपित SIR) पर आधारित है (<math>y_k</math>) आकार एम की आबादी से। प्रत्येक आइटम की संभावना है <math>p_k</math> (k से 1 से N) को एक ड्रॉ में निकाला जाना है (<math>\sum_U p_k = 1</math>, अर्थात: यह एक बहुराष्ट्रीय वितरण है)। संभावना है कि एक विशिष्ट <math>y_k</math> हमारे नमूने में दिखाई देगा <math>p_k</math>. प्रतिस्थापन मूल्य के साथ पी-विस्तार है <math>Z_i = \frac{y_k}{p_k}</math> निम्नलिखित प्रत्याशा के साथ: <math>E[Z_i] = E[I_i \frac{y_k}{p_k}] = \frac{y_k}{p_k} E[I_i] = \frac{y_k}{p_k} p_k = y_k</math>. इस तरह <math>\hat Y_{pwr} = \frac{1}{m} \sum_i^m Z_i </math>, pwr-आकलक, y के कुल योग के लिए एक निष्पक्ष अनुमानक है।<ref name="sarndal1992" />{{rp|51}}


2000 में, ब्रूस डी. स्पेंसर ने कुछ मात्रा के कुल (माध्य नहीं) के आकलन के विचरण के लिए डिजाइन प्रभाव का अनुमान लगाने के लिए एक सूत्र प्रस्तावित किया (<math>\hat Y</math>), जब तत्वों की चयन संभावनाओं और ब्याज के परिणाम चर के बीच संबंध होता है।<ref name = "Spencer2000">Spencer, Bruce D. "An approximate design effect for unequal weighting when measurements may correlate with selection probabilities." Survey Methodology 26 (2000): 137-138. [https://www150.statcan.gc.ca/n1/en/pub/12-001-x/2000002/article/5533-eng.pdf?st=t-Ccnb4p (pdf)]</ref>
2000 में, ब्रूस डी. स्पेंसर ने कुछ मात्रा के कुल (माध्य नहीं) के आकलन के विचरण के लिए डिजाइन प्रभाव का अनुमान लगाने के लिए एक सूत्र प्रस्तावित किया (<math>\hat Y</math>), जब तत्वों की चयन संभावनाओं और ब्याज के परिणाम चर के बीच संबंध होता है।<ref name = "Spencer2000">Spencer, Bruce D. "An approximate design effect for unequal weighting when measurements may correlate with selection probabilities." Survey Methodology 26 (2000): 137-138. [https://www150.statcan.gc.ca/n1/en/pub/12-001-x/2000002/article/5533-eng.pdf?st=t-Ccnb4p (pdf)]</ref>
इस सेटअप में, आकार n का एक नमूना आकार N की आबादी से (प्रतिस्थापन के साथ) तैयार किया जाता है। प्रत्येक आइटम को संभाव्यता के साथ खींचा जाता है <math>P_i</math> (कहाँ <math>\sum_{i=1}^N P_i = 1</math>, यानी: बहुराष्ट्रीय वितरण)। डिजाइन प्रभाव को परिभाषित करने के लिए चयन संभावनाओं का उपयोग किया जाता है # सामान्य प्रकार के वजन | सामान्यीकृत (उत्तल) वजन: <math>w_i = \frac{1}{nP_i}</math>. ध्यान दें कि n मदों के कुछ यादृच्छिक सेट के लिए, वजन का योग केवल प्रत्याशा के आधार पर 1 के बराबर होगा (<math>E[w_i]=1</math>) इसके चारों ओर योग की कुछ परिवर्तनशीलता के साथ (यानी: पॉइसन द्विपद वितरण से तत्वों का योग)। बीच के रिश्ते <math>y_i</math> और <math>P_i</math> निम्नलिखित (जनसंख्या) [[सरल रेखीय प्रतिगमन]] द्वारा परिभाषित किया गया है:
इस सेटअप में, आकार n का एक प्रतिदर्शी आकार N की आबादी से (प्रतिस्थापन के साथ) तैयार किया जाता है। प्रत्येक आइटम को संभाव्यता के साथ खींचा जाता है <math>P_i</math> (जहाँ <math>\sum_{i=1}^N P_i = 1</math>, अर्थात: बहुराष्ट्रीय वितरण)। डिजाइन प्रभाव को परिभाषित करने के लिए चयन संभावनाओं का उपयोग किया जाता है # सामान्य प्रकार के वजन | सामान्यीकृत (उत्तल) वजन: <math>w_i = \frac{1}{nP_i}</math>. ध्यान दें कि n मदों के कुछ अनियमित सेट के लिए, वजन का योग केवल प्रत्याशा के आधार पर 1 के बराबर होगा (<math>E[w_i]=1</math>) इसके चारों ओर योग की कुछ परिवर्तनशीलता के साथ (अर्थात: पॉइसन द्विपद वितरण से तत्वों का योग)। बीच के रिश्ते <math>y_i</math> और <math>P_i</math> निम्नलिखित (जनसंख्या) [[सरल रेखीय प्रतिगमन]] द्वारा परिभाषित किया गया है:


: <math>y_i = \alpha + \beta P_i + \epsilon_i </math>
: <math>y_i = \alpha + \beta P_i + \epsilon_i </math>
कहाँ <math>y_i</math> तत्व i का परिणाम है, जो रैखिक रूप से निर्भर करता है <math>P_i</math> अवरोधन के साथ <math>\alpha</math> और ढलान <math>\beta</math>. फिट लाइन से अवशिष्ट है <math>\epsilon_i = y_i - (\alpha + \beta P_i)</math>. हम परिणाम और अवशिष्ट के जनसंख्या प्रसरण को भी परिभाषित कर सकते हैं <math>\sigma^2_y</math> और <math>\sigma^2_\epsilon</math>. के बीच संबंध <math>P_i</math> और <math>y_i</math> है <math>\rho_{y,P}</math>.
जहाँ <math>y_i</math> तत्व i का परिणाम है, जो रैखिक रूप से निर्भर करता है <math>P_i</math> अवरोधन के साथ <math>\alpha</math> और ढलान <math>\beta</math>. फिट लाइन से अवशिष्ट है <math>\epsilon_i = y_i - (\alpha + \beta P_i)</math>. हम परिणाम और अवशिष्ट के जनसंख्या प्रसरण को भी परिभाषित कर सकते हैं <math>\sigma^2_y</math> और <math>\sigma^2_\epsilon</math>. के बीच संबंध <math>P_i</math> और <math>y_i</math> है <math>\rho_{y,P}</math>.


कुल y का अनुमान लगाने के लिए स्पेंसर का (अनुमानित) डिजाइन प्रभाव है:<ref name = "Spencer2000" />{{rp|138}}<ref name = "Park2001">Park, Inho, and Hyunshik Lee. "The design effect: do we know all about it." Proceedings of the Annual Meeting of the American Statistical Association. 2001. [http://www.asasrms.org/Proceedings/y2001/Proceed/00144.pdf (pdf)]</ref>{{rp|4}}<ref name = "Valliant2013" />{{rp|401}}
कुल y का अनुमान लगाने के लिए स्पेंसर का (अनुमानित) डिजाइन प्रभाव है:<ref name = "Spencer2000" />{{rp|138}}<ref name = "Park2001">Park, Inho, and Hyunshik Lee. "The design effect: do we know all about it." Proceedings of the Annual Meeting of the American Statistical Association. 2001. [http://www.asasrms.org/Proceedings/y2001/Proceed/00144.pdf (pdf)]</ref>{{rp|4}}<ref name = "Valliant2013" />{{rp|401}}


: <math>Deff_{Spencer} = (1- \hat \rho^2_{y,P})(1 + L) + \left(\frac{\hat \alpha}{\hat \sigma_y}\right)^2 L </math>
: <math>Deff_{Spencer} = (1- \hat \rho^2_{y,P})(1 + L) + \left(\frac{\hat \alpha}{\hat \sigma_y}\right)^2 L </math>
कहाँ:
जहाँ:
* <math>\hat \rho^2_{y,P}</math> अनुमान <math>\rho^2_{y,P}</math>
* <math>\hat \rho^2_{y,P}</math> अनुमान <math>\rho^2_{y,P}</math>
* <math>\hat \alpha</math> ढलान का अनुमान है <math>\alpha</math>
* <math>\hat \alpha</math> ढलान का अनुमान है <math>\alpha</math>
Line 236: Line 237:
* L वज़न का सापेक्षिक प्रसरण है, जैसा कि डिज़ाइन प्रभाव#फ़ॉर्मूला|किश के फ़ॉर्मूले में परिभाषित किया गया है: : <math>L = cv_w^2 = relvar(w) = \frac{V(w)}{{\bar w}^2}</math>.
* L वज़न का सापेक्षिक प्रसरण है, जैसा कि डिज़ाइन प्रभाव#फ़ॉर्मूला|किश के फ़ॉर्मूले में परिभाषित किया गया है: : <math>L = cv_w^2 = relvar(w) = \frac{V(w)}{{\bar w}^2}</math>.


यह मानता है कि प्रतिगमन मॉडल अच्छी तरह से फिट बैठता है ताकि चयन की संभावना और अवशिष्ट स्वतंत्रता (संभाव्यता सिद्धांत) हो, क्योंकि यह अवशिष्टों की ओर जाता है, और वर्ग अवशिष्ट, वजन के साथ असंबद्ध होने के लिए। यानी: वह <math>\rho_{\epsilon,W} = 0</math> और भी <math>\rho_{\epsilon^2,W} = 0</math>.<ref name = "Spencer2000" />{{rp|138}}
यह मानता है कि प्रतिगमन मॉडल अच्छी तरह से फिट बैठता है जिससे कि चयन की संभावना और अवशिष्ट स्वतंत्रता (संभाव्यता सिद्धांत) हो, क्योंकि यह अवशिष्टों की ओर जाता है, और वर्ग अवशिष्ट, वजन के साथ असंबद्ध होने के लिए। अर्थात: वह <math>\rho_{\epsilon,W} = 0</math> और भी <math>\rho_{\epsilon^2,W} = 0</math>.<ref name = "Spencer2000" />{{rp|138}}


जब जनसंख्या का आकार (N) बहुत बड़ा हो, तो सूत्र को इस प्रकार लिखा जा सकता है:<ref name = "Kimberly2015" />{{rp|319}}
जब जनसंख्या का आकार (N) बहुत बड़ा हो, तो सूत्र को इस प्रकार लिखा जा सकता है:<ref name = "Kimberly2015" />{{rp|319}}


: <math>Deff_{Spencer} = (1 - \hat \rho^2_{y,P})(1 + cv_w^2) + \left(\frac{1}{cv_Y^2}\right)^2 cv_w^2</math>
: <math>Deff_{Spencer} = (1 - \hat \rho^2_{y,P})(1 + cv_w^2) + \left(\frac{1}{cv_Y^2}\right)^2 cv_w^2</math>
(तब से <math>\alpha = \bar Y - \beta \times \bar P = \bar Y - \beta \times \frac{1}{N} \approx \bar Y</math>, कहाँ <math>cv_Y^2 = \frac{\sigma^2_Y}{\bar Y}</math>)
(तब से <math>\alpha = \bar Y - \beta \times \bar P = \bar Y - \beta \times \frac{1}{N} \approx \bar Y</math>, जहाँ <math>cv_Y^2 = \frac{\sigma^2_Y}{\bar Y}</math>)


यह सन्निकटन मानता है कि P और y के बीच रैखिक संबंध रखता है। और यह भी कि त्रुटियों के साथ वज़न का सहसंबंध, और त्रुटियों का वर्ग, दोनों शून्य हैं। अर्थात।: <math>\rho_{w,e} = 0</math> और <math>\rho_{w,e^2} = 0</math>.<ref name = "Park2001" />{{rp|4}}
यह सन्निकटन मानता है कि P और y के बीच रैखिक संबंध रखता है। और यह भी कि त्रुटियों के साथ वज़न का सहसंबंध, और त्रुटियों का वर्ग, दोनों शून्य हैं। अर्थात।: <math>\rho_{w,e} = 0</math> और <math>\rho_{w,e^2} = 0</math>.<ref name = "Park2001" />{{rp|4}}


हम देखते हैं कि अगर <math>\hat \rho_{y,P} \approx 0</math>, तब <math>\hat \alpha \approx \bar y</math> (अर्थात: y का औसत)। ऐसे मामले में सूत्र कम हो जाता है
हम देखते हैं कि यदि <math>\hat \rho_{y,P} \approx 0</math>, तब <math>\hat \alpha \approx \bar y</math> (अर्थात: y का औसत)। ऐसे प्रकरण में सूत्र कम हो जाता है


: <math>Deff_{Spencer} = (1 + L) + \left(\frac{1}{relvar(y)}\right)^2 L </math>
: <math>Deff_{Spencer} = (1 + L) + \left(\frac{1}{relvar(y)}\right)^2 L </math>
केवल अगर y का प्रसरण इसके माध्य से बहुत बड़ा है तो सबसे दाहिना पद 0 के करीब है (अर्थात: <math>relvar(y) = \frac{\sigma_y}{\bar Y} \approx 0</math>), जो स्पेंसर के डिज़ाइन प्रभाव (अनुमानित कुल के लिए) को किश के डिज़ाइन प्रभाव के बराबर कम कर देता है (अनुपात के लिए):<ref name = "Park2001" />{{rp|5}} <math>Deff_{Spencer} \approx (1 + L) = Deff_{Kish}</math>. अन्यथा, दो सूत्र अलग-अलग परिणाम देंगे, जो कुल बनाम एक माध्य के डिजाइन प्रभाव के बीच अंतर को दर्शाता है।
केवल यदि y का प्रसरण इसके माध्य से बहुत बड़ा है तो सबसे दाहिना पद 0 के करीब है (अर्थात: <math>relvar(y) = \frac{\sigma_y}{\bar Y} \approx 0</math>), जो स्पेंसर के डिज़ाइन प्रभाव (अनुमानित कुल के लिए) को किश के डिज़ाइन प्रभाव के बराबर कम कर देता है (अनुपात के लिए):<ref name = "Park2001" />{{rp|5}} <math>Deff_{Spencer} \approx (1 + L) = Deff_{Kish}</math>. अन्यथा, दो सूत्र अलग-अलग परिणाम देंगे, जो कुल बनाम एक माध्य के डिजाइन प्रभाव के बीच अंतर को दर्शाता है।


===== अनुमानित अनुपात-माध्य के लिए पार्क और ली की डेफ (<math>\hat{\bar{Y}}</math>) =====
===== अनुमानित अनुपात-माध्य के लिए पार्क और ली की डेफ (<math>\hat{\bar{Y}}</math>) =====


2001 में, पार्क और ली ने स्पेंसर के सूत्र को अनुपात-माध्य के मामले में विस्तारित किया (अर्थात: जनसंख्या के आकार के अनुमानक के साथ कुल के अनुमानक को विभाजित करके माध्य का अनुमान लगाना)। यह है:<ref name = "Park2001" />{{rp|4}}
2001 में, पार्क और ली ने स्पेंसर के सूत्र को अनुपात-माध्य के प्रकरण में विस्तारित किया (अर्थात: जनसंख्या के आकार के अनुमानक के साथ कुल के अनुमानक को विभाजित करके माध्य का अनुमान लगाना)। यह है:<ref name = "Park2001" />{{rp|4}}


: <math>Deff_{Park\&Lee} = (1 - \hat \rho^2_{y,P})(1 + cv_w^2) + \frac{\hat \rho_{y,P}^2}{cv_P^2} cv_w^2</math>
: <math>Deff_{Park\&Lee} = (1 - \hat \rho^2_{y,P})(1 + cv_w^2) + \frac{\hat \rho_{y,P}^2}{cv_P^2} cv_w^2</math>
कहाँ:
जहाँ:
* <math>cv_P^2</math> चयन की संभावनाओं की भिन्नता का (अनुमानित) गुणांक है।
* <math>cv_P^2</math> चयन की संभावनाओं की भिन्नता का (अनुमानित) गुणांक है।


पार्क और ली का सूत्र किश के सूत्र के बराबर है जब <math>\hat \rho_{y,P}^2 = 0</math>. दोनों सूत्र y के माध्य के डिजाइन प्रभाव से संबंधित हैं (जबकि स्पेंसर का डेफ कुल के अनुमान से संबंधित है)।
पार्क और ली का सूत्र किश के सूत्र के बराबर है जब <math>\hat \rho_{y,P}^2 = 0</math>. दोनों सूत्र y के माध्य के डिजाइन प्रभाव से संबंधित हैं (जबकि स्पेंसर का डेफ कुल के अनुमान से संबंधित है)।
सामान्य तौर पर, कुल के लिए डेफ (<math>\hat{Y}</math>) अनुपात माध्य के लिए डेफ की तुलना में कम कुशल होता है (<math>\hat{\bar{Y}}</math>) कब <math>\rho_{y,P}</math> छोटा है। और सामान्य तौर पर, <math>\rho_{y,P}</math> दोनों डिजाइन प्रभावों की दक्षता को प्रभावित करता है।<ref name = "park2006" />{{rp|8}}
सामान्यतः, कुल के लिए डेफ (<math>\hat{Y}</math>) अनुपात माध्य के लिए डेफ की तुलना में कम कुशल होता है (<math>\hat{\bar{Y}}</math>) कब <math>\rho_{y,P}</math> छोटा है। और सामान्यतः, <math>\rho_{y,P}</math> दोनों डिजाइन प्रभावों की दक्षता को प्रभावित करता है।<ref name = "park2006" />{{rp|8}}


=== क्लस्टर नमूनाकरण ===
=== क्लस्टर प्रतिदर्शी ===
क्लस्टर सैंपलिंग का उपयोग करके एकत्र किए गए डेटा के लिए हम निम्नलिखित संरचना को मानते हैं:
क्लस्टर सैंपलिंग का उपयोग करके एकत्र किए गए डेटा के लिए हम निम्नलिखित संरचना को मानते हैं:
* <math>n_k</math> प्रत्येक क्लस्टर और K क्लस्टर में अवलोकन, और कुल के साथ <math>n = \sum n_k</math> टिप्पणियों।
* <math>n_k</math> प्रत्येक क्लस्टर और K क्लस्टर में अवलोकन, और कुल के साथ <math>n = \sum n_k</math> टिप्पणियों।
* प्रेक्षणों में एक [[ब्लॉक मैट्रिक्स]] सहसंबंध मैट्रिक्स होता है जिसमें एक ही क्लस्टर से टिप्पणियों के प्रत्येक जोड़े को एक इंट्राक्लास सहसंबंध के साथ सहसंबद्ध किया जाता है # आधुनिक ICC परिभाषाएँ: सरल सूत्र लेकिन सकारात्मक पूर्वाग्रह | इंट्रा-क्लास सहसंबंध <math>\rho</math>, जबकि अंतर समूहों से प्रत्येक जोड़ी असंबंधित है।<ref>{{cite journal|title=बेनिन में एक स्वास्थ्य सुविधा क्लस्टर सर्वेक्षण से डिजाइन प्रभाव और इंट्राक्लास सहसंबंध गुणांक|author1=Alexander K. Rowe |author2=Marcel Lama |author3=Faustin Onikpo |author4=Michael S. Deming |journal=International Journal for Quality in Health Care|year=2002|volume= 14|pages=521–523|issue=6|doi=10.1093/intqhc/14.6.521|pmid=12515339 |doi-access=free}}</ref> यानी, प्रेक्षणों के प्रत्येक जोड़े के लिए, <math>i</math> और <math>j</math>, अगर वे एक ही क्लस्टर से संबंधित हैं <math>k</math>, हम पाते हैं <math>cov(y_i, y_j) = \rho \sigma^2 </math>. और दो अलग-अलग समूहों से दो आइटम सहसंबद्ध नहीं हैं, अर्थात: <math>cov(y_i, y_j) = 0 </math>.
* प्रेक्षणों में एक [[ब्लॉक मैट्रिक्स]] सहसंबंध मैट्रिक्स होता है जिसमें एक ही क्लस्टर से टिप्पणियों के प्रत्येक जोड़े को एक इंट्राक्लास सहसंबंध के साथ सहसंबद्ध किया जाता है # आधुनिक ICC परिभाषाएँ: सरल सूत्र लेकिन सकारात्मक पूर्वाग्रह | इंट्रा-क्लास सहसंबंध <math>\rho</math>, जबकि अंतर समूहों से प्रत्येक जोड़ी असंबंधित है।<ref>{{cite journal|title=बेनिन में एक स्वास्थ्य सुविधा क्लस्टर सर्वेक्षण से डिजाइन प्रभाव और इंट्राक्लास सहसंबंध गुणांक|author1=Alexander K. Rowe |author2=Marcel Lama |author3=Faustin Onikpo |author4=Michael S. Deming |journal=International Journal for Quality in Health Care|year=2002|volume= 14|pages=521–523|issue=6|doi=10.1093/intqhc/14.6.521|pmid=12515339 |doi-access=free}}</ref> अर्थात, प्रेक्षणों के प्रत्येक जोड़े के लिए, <math>i</math> और <math>j</math>, यदि वे एक ही क्लस्टर से संबंधित हैं <math>k</math>, हम पाते हैं <math>cov(y_i, y_j) = \rho \sigma^2 </math>. और दो अलग-अलग समूहों से दो आइटम सहसंबद्ध नहीं हैं, अर्थात: <math>cov(y_i, y_j) = 0 </math>.
* किसी भी क्लस्टर से एक तत्व को समान विचरण माना जाता है: <math>var(y_i) = \sigma_h^2 = \sigma^2 </math>.
* किसी भी क्लस्टर से एक तत्व को समान विचरण माना जाता है: <math>var(y_i) = \sigma_h^2 = \sigma^2 </math>.


जब सभी समूह समान आकार के हों <math>n^*</math>डिजाइन प्रभाव डी<sub>eff</sub>1965 में किश द्वारा प्रस्तावित (और बाद में दूसरों द्वारा फिर से दौरा किया गया), इसके द्वारा दिया गया है:<ref name=Kish1965/>{{rp|162}}<ref name = "Valliant2013" />{{rp|399}}<ref name = "park2006" />{{rp|9}}<ref>Bland, M (2005), [http://www-users.york.ac.uk/~mb55/talks/clusml.htm "Cluster randomised trials in the medical literature"], Notes for talks, York Univ</ref><ref>[https://ocw.jhsph.edu/courses/StatMethodsForSampleSurveys/PDFs/Lecture5.pdf Methods in Sample Surveys] (pages 5–6)</ref><ref name = "Cochran1977" />{{rp|241}}
जब सभी समूह समान आकार के हों <math>n^*</math>डिजाइन प्रभाव डी<sub>eff</sub>1965 में किश द्वारा प्रस्तावित (और बाद में दूसरों द्वारा पुनः दौरा किया गया), इसके द्वारा दिया गया है:<ref name=Kish1965/>{{rp|162}}<ref name = "Valliant2013" />{{rp|399}}<ref name = "park2006" />{{rp|9}}<ref>Bland, M (2005), [http://www-users.york.ac.uk/~mb55/talks/clusml.htm "Cluster randomised trials in the medical literature"], Notes for talks, York Univ</ref><ref>[https://ocw.jhsph.edu/courses/StatMethodsForSampleSurveys/PDFs/Lecture5.pdf Methods in Sample Surveys] (pages 5–6)</ref><ref name = "Cochran1977" />{{rp|241}}


:<math> D_\text{eff} = 1 + (n^* - 1) \rho .</math>
:<math> D_\text{eff} = 1 + (n^* - 1) \rho .</math>
इसे कभी-कभी के रूप में भी निरूपित किया जाता है <math> Deff_C</math>.<ref name = "Liu2002" />{{rp|2124}}
इसे कभी-कभी के रूप में भी निरूपित किया जाता है <math> Deff_C</math>.<ref name = "Liu2002" />{{rp|2124}}


विभिन्न पत्रों में, जब क्लस्टर आकार समान नहीं होते हैं, तो उपरोक्त सूत्र का भी उपयोग किया जाता है <math>n^*</math> औसत क्लस्टर आकार के रूप में (इसे कभी-कभी इस रूप में भी निरूपित किया जाता है <math>\bar b</math>).<ref name="Kish1987">Kish, L. (1987). Weighting in <math>Deft^2</math>. The Survey Statistician, June 1987. (this paper doesn't seem to be available online, but is references in several places as the original source of this formula)</ref><ref name = "Gabler1999" />{{rp|105}} ऐसे मामलों में, किश का सूत्र (औसत क्लस्टर वजन का उपयोग करके) सटीक डिजाइन प्रभाव के रूढ़िवादी (ऊपरी सीमा) के रूप में कार्य करता है।<ref name = "Gabler1999" />{{rp|106}}
विभिन्न पत्रों में, जब क्लस्टर आकार समान नहीं होते हैं, तो उपरोक्त सूत्र का भी उपयोग किया जाता है <math>n^*</math> औसत क्लस्टर आकार के रूप में (इसे कभी-कभी इस रूप में भी निरूपित किया जाता है <math>\bar b</math>).<ref name="Kish1987">Kish, L. (1987). Weighting in <math>Deft^2</math>. The Survey Statistician, June 1987. (this paper doesn't seem to be available online, but is references in several places as the original source of this formula)</ref><ref name = "Gabler1999" />{{rp|105}} ऐसे प्रकरणों में, किश का सूत्र (औसत क्लस्टर वजन का उपयोग करके) सटीक डिजाइन प्रभाव के रूढ़िवादी (ऊपरी सीमा) के रूप में कार्य करता है।<ref name = "Gabler1999" />{{rp|106}}


असमान क्लस्टर आकार के लिए वैकल्पिक सूत्र मौजूद हैं।<ref name=Kish1965/>{{rp|193}} अनुवर्ती कार्य ने विभिन्न अनुमानों के साथ औसत क्लस्टर आकार का उपयोग करने की संवेदनशीलता पर चर्चा की थी।<ref>Lynn, Peter, and Siegfried Gabler. Approximations to b* in the prediction of design effects due to clustering. No. 2004-07. ISER Working Paper Series, 2004. [https://www150.statcan.gc.ca/n1/en/pub/12-001-x/2005001/article/8093-eng.pdf?st=J-njxreT (pdf)]</ref>
असमान क्लस्टर आकार के लिए वैकल्पिक सूत्र सम्मलित हैं।<ref name=Kish1965/>{{rp|193}} अनुवर्ती कार्य ने विभिन्न अनुमानों के साथ औसत क्लस्टर आकार का उपयोग करने की संवेदनशीलता पर चर्चा की थी।<ref>Lynn, Peter, and Siegfried Gabler. Approximations to b* in the prediction of design effects due to clustering. No. 2004-07. ISER Working Paper Series, 2004. [https://www150.statcan.gc.ca/n1/en/pub/12-001-x/2005001/article/8093-eng.pdf?st=J-njxreT (pdf)]</ref>




=== असमान चयन संभावनाएं <math>\times</math> क्लस्टर नमूनाकरण ===
=== असमान चयन संभावनाएं <math>\times</math> क्लस्टर प्रतिदर्शी ===


1987 से अपने पेपर में, किश ने एक संयुक्त डिजाइन प्रभाव का प्रस्ताव दिया जिसमें भार के कारण दोनों प्रभाव शामिल हैं जो असमान चयन संभावनाओं के साथ-साथ क्लस्टर नमूनाकरण के लिए खाते हैं:<ref name = "Kish1987" /><ref name = "Gabler1999" />{{rp|105}}<ref name = "Gabler2005">Gabler, Siegfried, Sabine Hader, and Peter Lynn. Design effects for multiple design samples. No. 2005-12. ISER Working Paper Series, 2005. [https://www150.statcan.gc.ca/n1/en/pub/12-001-x/2006001/article/9256-eng.pdf?st=YXTS--Q- (pdf)]</ref>{{rp|4}}<ref name = "Park2001" />{{rp|2}}
1987 से अपने पेपर में, किश ने एक संयुक्त डिजाइन प्रभाव का प्रस्ताव दिया जिसमें भार के कारण दोनों प्रभाव सम्मिलित हैं जो असमान चयन संभावनाओं के साथ-साथ क्लस्टर प्रतिदर्शी के लिए खाते हैं:<ref name = "Kish1987" /><ref name = "Gabler1999" />{{rp|105}}<ref name = "Gabler2005">Gabler, Siegfried, Sabine Hader, and Peter Lynn. Design effects for multiple design samples. No. 2005-12. ISER Working Paper Series, 2005. [https://www150.statcan.gc.ca/n1/en/pub/12-001-x/2006001/article/9256-eng.pdf?st=YXTS--Q- (pdf)]</ref>{{rp|4}}<ref name = "Park2001" />{{rp|2}}


: <math>Deff_{Kish} = \frac{ n \sum\limits_{h=1}^H (n_h w_h^2) } { \sum\limits_{h=1}^H (n_h w_h)^2 } \left( 1 + (n^* - 1) \rho \right) = deff_k \times deff_C</math>
: <math>Deff_{Kish} = \frac{ n \sum\limits_{h=1}^H (n_h w_h^2) } { \sum\limits_{h=1}^H (n_h w_h)^2 } \left( 1 + (n^* - 1) \rho \right) = deff_k \times deff_C</math>
Line 287: Line 288:




=== स्तरीकृत नमूनाकरण <math>\times</math> असमान चयन संभावनाएं <math>\times</math> क्लस्टर नमूनाकरण ===
=== स्तरीकृत प्रतिदर्शी <math>\times</math> असमान चयन संभावनाएं <math>\times</math> क्लस्टर प्रतिदर्शी ===


2000 में, लियू और आरागॉन ने स्तरीकृत नमूने में विभिन्न स्तरों के लिए असमान चयन संभावनाओं के डिजाइन प्रभाव का एक अपघटन प्रस्तावित किया।<ref>Liu, J., and E. Aragon. "Subsampling strategies in longitudinal surveys." Proceedings of the Survey Research Methods Section, American Statistical Association. 2000. [http://www.asasrms.org/Proceedings/papers/2000_048.pdf (pdf)]</ref> 2002 में, लियू एट अल। विस्तारित कि स्तरीकृत नमूने के लिए खाते में काम करना प्रत्येक स्तर के भीतर असमान चयन संभावना भार का एक सेट है। क्लस्टर नमूनाकरण या तो वैश्विक या प्रति स्तर है।<ref name="Liu2002"/>इसी तरह का काम पार्क एट अल द्वारा भी किया गया था। 2003 में।<ref>{{cite web|author1=Park, Inho|title=डिजाइन प्रभाव और सर्वेक्षण योजना|date=2003|url=http://www.asasrms.org/Proceedings/y2003/Files/JSM2003-000820.pdf}}</ref>
2000 में, लियू और आरागॉन ने स्तरीकृत नमूने में विभिन्न स्तरों के लिए असमान चयन संभावनाओं के डिजाइन प्रभाव का एक अपघटन प्रस्तावित किया।<ref>Liu, J., and E. Aragon. "Subsampling strategies in longitudinal surveys." Proceedings of the Survey Research Methods Section, American Statistical Association. 2000. [http://www.asasrms.org/Proceedings/papers/2000_048.pdf (pdf)]</ref> 2002 में, लियू एट अल। विस्तारित कि स्तरीकृत नमूने के लिए खाते में काम करना प्रत्येक स्तर के अंतर्गत असमान चयन संभावना भार का एक सेट है। क्लस्टर प्रतिदर्शी या तो वैश्विक या प्रति स्तर है।<ref name="Liu2002"/>इसी तरह का काम पार्क एट अल द्वारा भी किया गया था। 2003 में।<ref>{{cite web|author1=Park, Inho|title=डिजाइन प्रभाव और सर्वेक्षण योजना|date=2003|url=http://www.asasrms.org/Proceedings/y2003/Files/JSM2003-000820.pdf}}</ref>




== उपयोग ==
== उपयोग ==
डेफ मुख्य रूप से कई उद्देश्यों के लिए प्रयोग किया जाता है:<ref name = "Cochran1977">Cochran, W. G. (1977). Sampling Techniques (3rd ed.). Nashville, TN: John Wiley & Sons. {{ISBN|978-0-471-16240-7}}</ref>{{rp|85}}
डेफ मुख्य रूप से कई उद्देश्यों के लिए प्रयोग किया जाता है:<ref name = "Cochran1977">Cochran, W. G. (1977). Sampling Techniques (3rd ed.). Nashville, TN: John Wiley & Sons. {{ISBN|978-0-471-16240-7}}</ref>{{rp|85}}
* डिजाइन विकसित करते समय - इसकी दक्षता का मूल्यांकन करने के लिए। यानी: यदि किसी निर्णय के कारण विचरण में संभावित रूप से बहुत अधिक वृद्धि हुई है, या यदि नया डिज़ाइन अधिक कुशल है (जैसे: स्तरीकृत नमूने के रूप में)।
* डिजाइन विकसित करते समय - इसकी दक्षता का मूल्यांकन करने के लिए। अर्थात: यदि किसी निर्णय के कारण विचरण में संभावित रूप से बहुत अधिक वृद्धि हुई है, या यदि नया डिज़ाइन अधिक कुशल है (जैसे: स्तरीकृत नमूने के रूप में)।
* नमूना आकार (समग्र, प्रति स्तर, प्रति क्लस्टर, आदि) के मार्गदर्शन के लिए एक मार्ग के रूप में, और भी
* प्रतिदर्शी आकार (समग्र, प्रति स्तर, प्रति क्लस्टर, आदि) के मार्गदर्शन के लिए एक मार्ग के रूप में, और भी
* पोस्ट-हॉक वेटिंग विश्लेषण के साथ संभावित समस्याओं का मूल्यांकन करते समय (उदाहरण: गैर-प्रतिक्रिया समायोजन से)।<ref name = "Kalton2005" />अंगूठे का कोई सार्वभौमिक नियम नहीं है जिसके लिए डिजाइन प्रभाव मूल्य बहुत अधिक है, लेकिन साहित्य यह इंगित करता है <math>Deff > 1.5</math> कुछ ध्यान देने की संभावना है।<ref name = "Valliant2013" />{{rp|396}}
* पोस्ट-हॉक वेटिंग विश्लेषण के साथ संभावित समस्याओं का मूल्यांकन करते समय (उदाहरण: गैर-प्रतिक्रिया समायोजन से)।<ref name = "Kalton2005" />अंगूठे का कोई सार्वभौमिक नियम नहीं है जिसके लिए डिजाइन प्रभाव मूल्य बहुत अधिक है, लेकिन साहित्य यह इंगित करता है <math>Deff > 1.5</math> कुछ ध्यान देने की संभावना है।<ref name = "Valliant2013" />{{rp|396}}


अपने 1995 के पेपर में, किश ने निम्नलिखित वर्गीकरण का प्रस्ताव दिया था कि डेफ कब उपयोगी है और उपयोगी नहीं है:<ref name = "Kish1995"/>{{rp|57–62}}
अपने 1995 के पेपर में, किश ने निम्नलिखित वर्गीकरण का प्रस्ताव दिया था कि डेफ कब उपयोगी है और उपयोगी नहीं है:<ref name = "Kish1995"/>{{rp|57–62}}


* डिज़ाइन प्रभाव तब अनावश्यक होता है जब: स्रोत जनसंख्या बारीकी से स्वतंत्र होती है और यादृच्छिक चर समान रूप से वितरित होती है|i.i.d, या जब डेटा का नमूना डिज़ाइन एक साधारण यादृच्छिक नमूने के रूप में तैयार किया गया था। यह तब भी कम उपयोगी होता है जब नमूना आकार अपेक्षाकृत छोटा होता है (व्यावहारिक कारणों से कम से कम आंशिक रूप से)। और यह भी कि अगर केवल [[वर्णनात्मक आँकड़े]] रुचि के हैं (यानी: [[बिंदु अनुमान]])। यह भी सुझाव दिया जाता है कि यदि केवल कुछ आँकड़ों के लिए मानक त्रुटियों की आवश्यकता है, तो यह ठीक हो सकता है। डेफ को नजरअंदाज करने के लिए।
* डिज़ाइन प्रभाव तब अनावश्यक होता है जब: स्रोत जनसंख्या बारीकी से स्वतंत्र होती है और अनियमित चर समान रूप से वितरित होती है|i.i.d, या जब डेटा का प्रतिदर्शी डिज़ाइन एक साधारण अनियमित नमूने के रूप में तैयार किया गया था। यह तब भी कम उपयोगी होता है जब प्रतिदर्शी आकार अपेक्षाकृत छोटा होता है (व्यावहारिक कारणों से कम से कम आंशिक रूप से)। और यह भी कि यदि केवल [[वर्णनात्मक आँकड़े]] रुचि के हैं (अर्थात: [[बिंदु अनुमान]])। यह भी सुझाव दिया जाता है कि यदि केवल कुछ आँकड़ों के लिए मानक त्रुटियों की आवश्यकता है, तो यह ठीक हो सकता है। डेफ को नजरअंदाज करने के लिए।
* डिज़ाइन प्रभाव तब आवश्यक होता है जब: एक ही सर्वेक्षण पर मापे गए विभिन्न चरों के लिए औसत नमूनाकरण त्रुटियां। या जब समय की अवधि में कई सर्वेक्षणों से समान मापी गई मात्रा का औसत निकाला जाता है। या जब सरल आँकड़ों की त्रुटि (जैसे: माध्य) से अधिक जटिल वाले (जैसे: प्रतिगमन गुणांक) की त्रुटि से एक्सट्रपलेशन करते हैं। भविष्य के सर्वेक्षण को डिजाइन करते समय (लेकिन उचित सावधानी के साथ)। डेटा या इसके विश्लेषण के साथ स्पष्ट मुद्दों की पहचान करने के लिए सहायक आंकड़े के रूप में (उदाहरण के लिए: गलतियों से लेकर [[ग़ैर]] की उपस्थिति तक)।<ref name="kish1992"/>{{rp|191}}
* डिज़ाइन प्रभाव तब आवश्यक होता है जब: एक ही सर्वेक्षण पर मापे गए विभिन्न चरों के लिए औसत प्रतिदर्शी त्रुटियां। या जब समय की अवधि में कई सर्वेक्षणों से समान मापी गई मात्रा का औसत निकाला जाता है। या जब सरल आँकड़ों की त्रुटि (जैसे: माध्य) से अधिक जटिल वाले (जैसे: प्रतिगमन गुणांक) की त्रुटि से एक्सट्रपलेशन करते हैं। भविष्य के सर्वेक्षण को डिजाइन करते समय (लेकिन उचित सावधानी के साथ)। डेटा या इसके विश्लेषण के साथ स्पष्ट मुद्दों की पहचान करने के लिए सहायक आंकड़े के रूप में (उदाहरण के लिए: गलतियों से लेकर [[ग़ैर]] की उपस्थिति तक)।<ref name="kish1992"/>{{rp|191}}


नमूना आकार की योजना बनाते समय, डिज़ाइन प्रभाव को ठीक करने के लिए काम किया गया है ताकि नमूना विचरण पर नमूना डिज़ाइन के प्रभाव से साक्षात्कारकर्ता प्रभाव (माप त्रुटि) को अलग किया जा सके।<ref>Zins, Stefan, and Jan Pablo Burgard. "Considering interviewer and design effects when planning sample sizes." SURVEY METHODOLOGY 46.1 (2020): 93-119. [https://www150.statcan.gc.ca/n1/pub/12-001-x/2020001/article/00005-eng.htm (paper - html)]</ref>
प्रतिदर्शी आकार की योजना बनाते समय, डिज़ाइन प्रभाव को ठीक करने के लिए काम किया गया है जिससे कि प्रतिदर्शी विचरण पर प्रतिदर्शी डिज़ाइन के प्रभाव से साक्षात्कारकर्ता प्रभाव (माप त्रुटि) को अलग किया जा सके।<ref>Zins, Stefan, and Jan Pablo Burgard. "Considering interviewer and design effects when planning sample sizes." SURVEY METHODOLOGY 46.1 (2020): 93-119. [https://www150.statcan.gc.ca/n1/pub/12-001-x/2020001/article/00005-eng.htm (paper - html)]</ref>
जबकि किश को मूल रूप से उम्मीद थी कि डिजाइन प्रभाव डेटा के अंतर्निहित वितरण, नमूनाकरण की संभावनाओं, उनके सहसंबंधों और ब्याज के आंकड़ों के लिए संभव के रूप में अज्ञेयवादी होने में सक्षम होगा - अनुवर्ती शोध से पता चला है कि ये डिजाइन प्रभाव को प्रभावित करते हैं। इसलिए, इन गुणों पर सावधानीपूर्वक ध्यान दिया जाना चाहिए कि किस डेफ गणना का उपयोग करना है और इसका उपयोग कैसे करना है।<ref name = "park2006" />{{rp|13}}<ref name = "Park2001" />{{rp|6}}
जबकि किश को मूल रूप से उम्मीद थी कि डिजाइन प्रभाव डेटा के अंतर्निहित वितरण, प्रतिदर्शी की संभावनाओं, उनके सहसंबंधों और ब्याज के आंकड़ों के लिए संभव के रूप में अज्ञेयवादी होने में सक्षम होगा - अनुवर्ती शोध से पता चला है कि ये डिजाइन प्रभाव को प्रभावित करते हैं। इसलिए, इन गुणों पर सावधानीपूर्वक ध्यान दिया जाना चाहिए कि किस डेफ गणना का उपयोग करना है और इसका उपयोग कैसे करना है।<ref name = "park2006" />{{rp|13}}<ref name = "Park2001" />{{rp|6}}


== सॉफ्टवेयर कार्यान्वयन ==
== सॉफ्टवेयर कार्यान्वयन ==
Line 313: Line 314:


== इतिहास ==
== इतिहास ==
डिजाइन प्रभाव शब्द को लेस्ली किश ने 1965 में अपनी पुस्तक सर्वे सैम्पलिंग में पेश किया था।<ref name=Kish1965 />{{rp|88,258}} 1995 से अपने पेपर में,<ref name = "Kish1995">Kish, Leslie. "Methods for design effects." Journal of official Statistics 11.1 (1995): 55 ([https://www.scb.se/contentassets/ca21efb41fee47d293bbee5bf7be7fb3/methods-for-design-effects.pdf pdf])</ref>{{rp|73}} किश ने उल्लेख किया है कि एक समान अवधारणा, जिसे लेक्सिस अनुपात कहा जाता है, को 19वीं शताब्दी के अंत में वर्णित किया गया था। 1950 में [[रोनाल्ड फिशर]] द्वारा बारीकी से संबंधित इंट्राक्लास सहसंबंध का वर्णन किया गया था, जबकि किश और अन्य लोगों द्वारा 40 के दशक के अंत से 50 के दशक तक भिन्नताओं के अनुपात की गणना पहले ही प्रकाशित कर दी गई थी। किश की परिभाषा के अग्रदूतों में से एक 1951 में कॉर्नफील्ड द्वारा किया गया कार्य था।<ref>Cochran, William G. "Modern methods in the sampling of human populations." American journal of public health and the nation's health 41.6 (1951): 647–668.</ref><ref name = "park2006">Park, Inho, and Hyunshik Lee. "Design effects for the weighted mean and total estimators under complex survey sampling." Quality control and applied statistics 51.4 (2006): 381–384 (based on google scholar).  
डिजाइन प्रभाव शब्द को लेस्ली किश ने 1965 में अपनी पुस्तक सर्वे सैम्पलिंग में प्रस्तुत किया था।<ref name=Kish1965 />{{rp|88,258}} 1995 से अपने पेपर में,<ref name = "Kish1995">Kish, Leslie. "Methods for design effects." Journal of official Statistics 11.1 (1995): 55 ([https://www.scb.se/contentassets/ca21efb41fee47d293bbee5bf7be7fb3/methods-for-design-effects.pdf pdf])</ref>{{rp|73}} किश ने उल्लेख किया है कि एक समान अवधारणा, जिसे लेक्सिस अनुपात कहा जाता है, को 19वीं शताब्दी के अंत में वर्णित किया गया था। 1950 में [[रोनाल्ड फिशर]] द्वारा बारीकी से संबंधित इंट्राक्लास सहसंबंध का वर्णन किया गया था, जबकि किश और अन्य लोगों द्वारा 40 के दशक के अंत से 50 के दशक तक भिन्नताओं के अनुपात की गणना पहले ही प्रकाशित कर दी गई थी। किश की परिभाषा के अग्रदूतों में से एक 1951 में कॉर्नफील्ड द्वारा किया गया कार्य था।<ref>Cochran, William G. "Modern methods in the sampling of human populations." American journal of public health and the nation's health 41.6 (1951): 647–668.</ref><ref name = "park2006">Park, Inho, and Hyunshik Lee. "Design effects for the weighted mean and total estimators under complex survey sampling." Quality control and applied statistics 51.4 (2006): 381–384 (based on google scholar).  
Vol. 30, No. 2, pp. 183-193. Statistics Canada, Catalogue No. 12-001. Survey Methodology December 2004 (based on the PDF) ([https://www150.statcan.gc.ca/n1/en/pub/12-001-x/2004002/article/7751-eng.pdf?st=DUPH-397 pdf])</ref>
Vol. 30, No. 2, pp. 183-193. Statistics Canada, Catalogue No. 12-001. Survey Methodology December 2004 (based on the PDF) ([https://www150.statcan.gc.ca/n1/en/pub/12-001-x/2004002/article/7751-eng.pdf?st=DUPH-397 pdf])</ref>
1965 से अपनी मूल पुस्तक में, किश ने डिज़ाइन प्रभाव के लिए सामान्य परिभाषा प्रस्तावित की (दो अनुमानकों के प्रसरण का अनुपात, एक कुछ डिज़ाइन वाले नमूने से और दूसरा एक साधारण यादृच्छिक नमूने से)। अपनी पुस्तक में, किश ने #Design_effect_for_cluster_sampling (इंट्राक्लास सहसंबंध के साथ) के लिए सूत्र प्रस्तावित किया;<ref name=Kish1965/>{{rp|162}} साथ ही प्रसिद्ध डिजाइन प्रभाव#किश का डिजाइन प्रभाव।<ref name=Kish1965/>{{rp|427}} इन्हें अक्सर किश के डिजाइन प्रभाव के रूप में जाना जाता है, और बाद में एक सूत्र में विलय कर दिया गया है।
1965 से अपनी मूल पुस्तक में, किश ने डिज़ाइन प्रभाव के लिए सामान्य परिभाषा प्रस्तावित की (दो अनुमानकों के प्रसरण का अनुपात, एक कुछ डिज़ाइन वाले नमूने से और दूसरा एक साधारण अनियमित नमूने से)। अपनी पुस्तक में, किश ने #Design_effect_for_cluster_sampling (इंट्राक्लास सहसंबंध के साथ) के लिए सूत्र प्रस्तावित किया;<ref name=Kish1965/>{{rp|162}} साथ ही प्रसिद्ध डिजाइन प्रभाव#किश का डिजाइन प्रभाव।<ref name=Kish1965/>{{rp|427}} इन्हें अधिकांशतः किश के डिजाइन प्रभाव के रूप में जाना जाता है, और बाद में एक सूत्र में विलय कर दिया गया है।


== यह भी देखें ==
== यह भी देखें ==


* [[भिन्नता मुद्रास्फीति कारक]] (वीआईएफ)। वीआईएफ और डेफ समान अवधारणाएं हैं जिसमें वे वैकल्पिक मॉडल के तहत कुछ पैरामीटर का आकलन करने के भिन्नता के अनुपात हैं।
* [[भिन्नता मुद्रास्फीति कारक]] (वीआईएफ)। वीआईएफ और डेफ समान अवधारणाएं हैं जिसमें वे वैकल्पिक मॉडल के अनुसार कुछ मापदंड का आकलन करने के भिन्नता के अनुपात हैं।
* [[प्रभावी नमूना आकार]]
* [[प्रभावी नमूना आकार|प्रभावी प्रतिदर्शी आकार]]


==संदर्भ==
==संदर्भ==

Revision as of 16:34, 15 June 2023

सर्वेक्षण पद्धति में, डिजाइन प्रभाव (सामान्यतः डिजाइन प्रभाव परिभाषाओं के रूप में या ) कुछ मापदंड के लिए अनुमानक के भिन्नता पर प्रतिदर्शी डिजाइन के अपेक्षित प्रभाव का एक उपाय है। इसकी गणना किसी (अधिकांशतः) जटिल प्रतिदर्शी डिजाइन से नमूने के आधार पर एक अनुमानक के समान संख्या में तत्वों के एक साधारण अनियमित नमूने (एसआरएस) के आधार पर वैकल्पिक अनुमानक के भिन्नता के अनुपात के रूप में की जाती है।[1]: 258  डेफ़ (चाहे यह अनुमान लगाया गया हो, या पूर्व-ज्ञात हो) का उपयोग उन प्रकरणों में एक अनुमानक के प्रसरण को समायोजित करने के लिए किया जा सकता है जहाँ सरल अनियमित प्रतिदर्शी का उपयोग करके प्रतिदर्शी तैयार नहीं किया जाता है। यह प्रतिदर्शी आकार की गणना में और नमूने की प्रतिनिधित्व क्षमता को मापने के लिए भी उपयोगी हो सकता है। शब्द डिजाइन प्रभाव 1965 में लेस्ली किश द्वारा गढ़ा गया था।

डिजाइन प्रभाव एक सकारात्मक वास्तविक संख्या है जो एक मुद्रास्फीति () को इंगित करता है, या अपस्फीति () कुछ मापदंड के लिए एक अनुमानक के विचरण में, जो कि अध्ययन के कारण एसआरएस (के साथ) का उपयोग नहीं कर रहा है, जब प्रसरण समान हैं अर्थात )।[2]: 53, 54 

कुछ संभावित जटिल प्रतिदर्शी जो 1 से भिन्न डेफ़ को प्रस्तुत कर सकते हैं उनमें सम्मिलित हैं: क्लस्टर प्रतिदर्शी (जैसे कि जब टिप्पणियों के बीच सहसंबंध होता है), स्तरीकृत प्रतिदर्शी, क्लस्टर अनियमित नियंत्रित परीक्षण, अनुपातहीन (असमान संभावना) प्रतिदर्शी, गैर-कवरेज, गैर-प्रतिक्रिया, सांख्यिकीय डिजाइन प्रभाव,असमान चयन संभावनाओं के स्रोत आदि।

डेफ का उपयोग प्रतिदर्शी आकार की गणना में किया जा सकता है, प्रतिदर्शी के प्रतिनिधि (लक्षित आबादी के लिए) को मापने के साथ-साथ कुछ अनुमानक के भिन्नता को समायोजित करने के लिए ऐसे प्रकरणों में जब हम एसआरएस मानते हुए अनुमानक के भिन्नता की गणना कर सकते हैं।[3]

डिजाइन प्रभाव शब्द को 1965 में लेस्ली किश द्वारा गढ़ा गया था।[1]: 88, 258  कई डिजाइन प्रभाव प्रसिद्ध प्रतिदर्शी डिजाइनों के लिए डिजाइन प्रभाव साहित्य में गणना द्वारा (और अनुमानक) प्रस्तावित किए गए हैं, रुचि के अनुमानकों के भिन्नता में वृद्धि/कमी पर ज्ञात प्रतिदर्शी डिजाइन के प्रभाव का वर्णन करने के लिए प्रयोग किया जाता है जो कि सामान्यतः, डिजाइन प्रभाव हितों के आंकड़ों के बीच भिन्न होता है, जैसे कि कुल या अनुपात वितरण अनियमित अनुपात के साधन और भिन्नताएं यह भी मायने रखता है कि क्या डिजाइन (जैसे: चयन संभावनाएँ) रुचि के परिणाम के साथ सहसंबद्ध हैं और अंत में, यह परिणाम के वितरण से ही प्रभावित होता है। व्यवहार में डिजाइन प्रभाव का आकलन और उपयोग करते समय इन सभी पर विचार किया जाना चाहिए।[4]: 13 

परिभाषाएँ

डेफ

डिजाइन प्रभाव (डेफ, या ) कुछ सांख्यिकीय मापदंड के अनुमानकों के लिए दो सैद्धांतिक भिन्नताओं का अनुपात () है:[1][5]

* अंश में कुछ मापदंड के अनुमानक के लिए वास्तविक भिन्नता () है, दिए गए नमूने के डिजाइन में प्रतिदर्शी है।
* भाजक में एक ही प्रतिदर्शी आकार मानने वाला विचरण है, लेकिन यदि अनुमानक का उपयोग करके प्रतिदर्शी प्राप्त किया गया था तो हम प्रतिस्थापन के बिना एक साधारण अनियमित नमूने के लिए () उपयोग करेंगे।

जिससे कि:

कितना अधिक विचरण बढ़ा था (या कुछ प्रकरणों में घट गया था), क्योंकि हमारा प्रतिदर्शी तैयार किया गया था और एक विशिष्ट प्रतिदर्शी डिजाइन (जैसे: वजन, या अन्य उपायों का उपयोग करके) के लिए समायोजित किया गया था, क्योंकि यह तब संभव होगा जब प्रतिदर्शी एक से सरल था। सरल अनियमित प्रतिदर्शी (प्रतिस्थापन के बिना) गणना के कई तरीके हैं, ब्याज के मापदंड के आधार पर (जैसे: जनसंख्या कुल, जनसंख्या माध्य, मात्राएँ, मात्राओं का अनुपात आदि) उपयोग किया गया अनुमानक और प्रतिदर्शी डिज़ाइन (जैसे: क्लस्टर प्रतिदर्शी, स्तरीकृत प्रतिदर्शी, पोस्ट-स्तरीकरण, बहु-चरण प्रतिदर्शी) इत्यादि)।

समष्टि माध्य का अनुमान लगाने के लिए डेफ (कुछ प्रतिदर्श डिजाइन p के लिए) है:[4]: 4 [2]: 54 

जहाँ n प्रतिदर्शी आकार है, f जनसंख्या से नमूने का अंश है (n/N), (1-f) मानक त्रुटि परिमित जनसंख्या सुधार (पांचवें वेतन आयोग) (पांचवें वेतन आयोग) है, और प्रतिदर्शी प्रसरण है।

इकाई विचरण (या तत्व विचरण) का अनुमान तब होता है जब डेफ को तत्व के विचरण से गुणा किया जाता है, जिससे कि प्रतिदर्शी डिजाइन की सभी जटिलताओं को सम्मिलित किया जा सके।[1]: 259 

ध्यान दें कि डेफ की परिभाषा जनसंख्या के उन मापदंडों पर कैसे आधारित है जिन्हें हम अधिकांशतः नहीं जानते हैं (अर्थात, दो अलग-अलग प्रतिदर्शी डिजाइनों के अनुसार अनुमानकों के प्रसरण)। विशिष्ट डिजाइनों के लिए डीईएफ़ का आकलन करने की प्रक्रिया को डिज़ाइन प्रभाव प्रसिद्ध प्रतिदर्शी डिज़ाइनों के लिए डिज़ाइन प्रभाव में वर्णित किया जाएगा।[6]: 98 

कुछ डिज़ाइन के लिए कुल (माध्य नहीं) का अनुमान लगाने के (सैद्धांतिक) डिज़ाइन प्रभाव के लिए एक सामान्य सूत्र कोचरन 1977 में दिया गया है।[2]: 54 

डेफ्ट

1995 में किश द्वारा प्रस्तावित डेफ से संबंधित मात्रा को डेफ्ट (डिजाइन इफेक्ट फैक्टर) कहा जाता है।[7]: 56 [4]इसे विचरण अनुपात के वर्गमूल पर परिभाषित किया गया है, और भाजक बिना प्रतिस्थापन के अतिरिक्त प्रतिस्थापन के साथ एक साधारण अनियमित नमूने का उपयोग करता है:

इसके बाद की परिभाषा में (1995 बनाम 1965 में प्रस्तावित) यह तर्क दिया गया था कि प्रतिस्थापन के बिना एसआरएस (विचरण पर इसके सकारात्मक प्रभाव के साथ) को डिजाइन प्रभाव की परिभाषा में सम्मिलित किया जाना चाहिए, क्योंकि यह प्रतिदर्शी डिजाइन का हिस्सा है। यह अनुमान में उपयोग से अधिक प्रत्यक्ष रूप से संबंधित है (चूंकि हम अधिकांशतः विश्वास अंतराल बनाते समय +Z*DE*SE का उपयोग करते हैं, न कि +Z*DE*VAR का)। साथ ही चूंकि मानक त्रुटि परिमित जनसंख्या सुधार (पांचवें वेतन आयोग) भी कुछ स्थितियों में गणना करना कठिन होता है। लेकिन कई प्रकरणों में जब जनसंख्या बहुत बड़ी होती है, तो डेफ्ट (लगभग) का वर्गमूल () होता है।

डेफ़्ट का मूल उद्देश्य यह था कि वह मौलिक परिवर्तनशीलता से परे प्रतिदर्शी डिज़ाइन के प्रभावों को व्यक्त करे। , माप की इकाई और प्रतिदर्शी आकार दोनों को विचलित मापदंडों के रूप में हटाकर यह एक ही सर्वेक्षण के अंतर्गत (और यहां तक ​​कि सर्वेक्षणों के बीच भी) कई आँकड़ों और चरों के लिए डिजाइन प्रभाव को सामान्य बनाने योग्य (प्रासंगिक) निर्मित के लिए किया जाता है।[7]: 55  हालांकि, अनुवर्ती फलनों ने दिखाया है कि डिजाइन प्रभाव की गणना जनसंख्या कुल या माध्य जैसे मापदंडों के लिए परिणाम माप की परिवर्तनशीलता पर निर्भर है, जो इस माप के लिए किश की मूल आकांक्षा को सीमित करता है। हालाँकि यह कथन शिथिल हो सकता है (अर्थात: कुछ शर्तों के अनुसार) और भारित माध्य के लिए सही हो सकता है।[4]: 5 

प्रभावी प्रतिदर्शी आकार

प्रभावी प्रतिदर्शी आकार, जिसे 1965 में किश द्वारा भी परिभाषित किया गया था, डिजाइन प्रभाव से विभाजित मूल प्रतिदर्शी आकार है।[1]: 162, 259 [8]: 190, 192  यह मात्रा दर्शाती है कि सम्मलिता डिज़ाइन के साथ अनुमानक (कुछ मापदंड के लिए) के वर्तमान भिन्नता को प्राप्त करने के लिए आवश्यक प्रतिदर्शी आकार क्या होगा, यदि प्रतिदर्शी डिज़ाइन (और इसके प्रासंगिक मापदंड अनुमानक) एक साधारण अनियमित नमूने पर आधारित थे।[9] अर्थात्:

दूसरे तरीके से कहें तो यह कहता है कि एक एस्टिमेटर का उपयोग करते समय हमारे पास कितनी प्रतिक्रियाएं बची हैं जो प्रतिदर्शी डिजाइन के डिजाइन प्रभाव के लिए सही ढंग से समायोजित करता है। उदाहरण के लिए, साधारण अंकगणितीय माध्य के अतिरिक्त व्युत्क्रम संभाव्यता भार के साथ भारित अंकगणितीय माध्य का उपयोग करना।

डेफ़ का व्युत्क्रम लेकर प्रभावी प्रतिदर्शी आकार अनुपात प्राप्त करना भी संभव है (अर्थात: ).

असमान वजन के लिए किश के डिजाइन प्रभाव का उपयोग करते समय, आप लेस्ली किश के प्रभावी प्रतिदर्शी आकार के लिए निम्न सरल सूत्र का उपयोग कर सकते हैं[10][1]: 162, 259 


सुप्रसिद्ध सैम्पलिंग डिजाइनों के लिए डिजाइन प्रभाव

प्रतिदर्शी डिजाइन तय करता है कि डिजाइन प्रभाव की गणना कैसे की जानी चाहिए

अलग-अलग सैंपलिंग डिज़ाइन उनके पूर्वाग्रह और विचरण के संदर्भ में अनुमानकों (जैसे माध्य) पर उनके प्रभाव में काफी भिन्न होते हैं।

उदाहरण के लिए, क्लस्टर सैंपलिंग प्रकरण में इकाइयों में समान या असमान चयन संभावनाएँ हो सकती हैं, भले ही उनका इंट्रा-क्लास सहसंबंध (और हमारे अनुमानकों के विचरण को बढ़ाने का उनका नकारात्मक प्रभाव) हो। स्तरीकृत नमूने के प्रकरण में, संभावनाएं बराबर (ईपीएसईएम) या असमान हो सकती हैं। लेकिन इसकी परवाह किए बिना, प्रतिदर्शी चरण के समय, जनसंख्या में स्तर के आकार पर पूर्व सूचना का उपयोग, हमारे अनुमानकों की सांख्यिकीय दक्षता प्राप्त कर सकता है। उदाहरण के लिए: यदि हम जानते हैं कि लिंग हमारी रुचि के परिणाम से संबंधित है, और यह भी जानते हैं कि कुछ जनसंख्या के लिए पुरुष-महिला अनुपात 50%-50% है। फिर यदि हमने सुनिश्चित किया कि प्रत्येक लिंग का ठीक आधा प्रतिदर्शी लिया जाए, तो हमने अनुमानकों के विचलन को कम कर दिया है क्योंकि हमने अपने नमूने में पुरुषों-महिलाओं के असमान अनुपात के कारण होने वाली परिवर्तनशीलता को हटा दिया है। अंत में, गैर-कवरेज, गैर-प्रतिक्रिया या आबादी के कुछ स्तर विभाजन (प्रतिदर्शी चरण के समय अनुपलब्ध) में समायोजन के प्रकरण में, हम सांख्यिकीय प्रक्रियाओं (जैसे: पोस्ट-स्तरीकरण और अन्य) का उपयोग कर सकते हैं। ऐसी प्रक्रियाओं के परिणाम से प्रतिदर्शी की संभावनाओं का अनुमान लगाया जा सकता है जो इकाइयों की वास्तविक प्रतिदर्शी संभावनाओं की तुलना में समान या बहुत भिन्न हैं। इन अनुमानकों की गुणवत्ता सहायक जानकारी की गुणवत्ता और उन्हें बनाने में उपयोग की जाने वाली अनियमित धारणाओं पर लापता डेटा # गुम होने पर निर्भर करती है। यहां तक ​​​​कि जब ये प्रतिदर्शी संभाव्यता अनुमानक (प्रवृत्ति स्कोर) उन अधिकांश घटनाओं को पकड़ने में कामयाब होते हैं जो उन्हें उत्पन्न करते हैं - अनुमानकों पर परिवर्तनीय चयन संभावनाओं का प्रभाव डेटा (अगले खंड में विवरण) के आधार पर छोटा या बड़ा हो सकता है।

प्रतिदर्शी डिजाइनों में बड़ी विविधता के कारण (असमान चयन संभावनाओं पर प्रभाव के साथ या बिना), संभावित डिजाइन प्रभाव को पकड़ने के साथ-साथ अनुमानकों के सही विचलन का अनुमान लगाने के लिए विभिन्न सूत्र विकसित किए गए हैं। कभी-कभी, इन विभिन्न डिज़ाइन प्रभावों को एक साथ मिश्रित किया जा सकता है (जैसा कि असमान चयन संभावना और क्लस्टर प्रतिदर्शी के प्रकरण में, निम्न अनुभागों में अधिक विवरण)। इन फ़ार्मुलों का उपयोग करना है या नहीं, या केवल एसआरएस मान लें, अनुमानक भिन्नता में वृद्धि बनाम पूर्वाग्रह की अपेक्षित मात्रा पर निर्भर करता है (और पद्धतिगत और तकनीकी जटिलता के ऊपरी हिस्से में)।[1]: 426 

असमान चयन संभावनाएं

असमान चयन संभावनाओं के स्रोत

इकाइयों का प्रतिदर्शी लेने के विभिन्न तरीके हैं जिससे कि प्रत्येक इकाई के चयन की सटीक समान संभावना हो। ऐसी पद्धतियों को सरल अनियमित प्रतिदर्शी#समान प्रायिकता प्रतिदर्शी (एपीएसईएम) (ईपीएसईएम) विधियाँ कहा जाता है। अधिक बुनियादी तरीकों में से कुछ सरल अनियमित प्रतिदर्शी (एसआरएस, या तो प्रतिस्थापन के साथ या बिना) और एक निश्चित प्रतिदर्शी आकार प्राप्त करने के लिए व्यवस्थित प्रतिदर्शी सम्मिलित हैं। एक अनियमित प्रतिदर्शी आकार के साथ बर्नौली प्रतिदर्शी भी है। स्तरीकृत प्रतिदर्शी और क्लस्टर प्रतिदर्शी जैसी अधिक उन्नत तकनीकों को भी ईपीएसईएम के रूप में डिजाइन किया जा सकता है। उदाहरण के लिए, क्लस्टर सैंपलिंग में हम प्रत्येक क्लस्टर को प्रायिकता के साथ प्रतिदर्शी लेना सुनिश्चित कर सकते हैं जो उसके आकार के समानुपाती है, और फिर क्लस्टर के अंदर सभी इकाइयों को मापें। क्लस्टर प्रतिदर्शी के लिए एक अधिक जटिल विधि एक दो-चरण प्रतिदर्शी का उपयोग करना है जिसके द्वारा हम पहले चरण में क्लस्टर का प्रतिदर्शी लेते हैं (पहले की तरह, क्लस्टर आकार के आनुपातिक), और दूसरे चरण में प्रत्येक क्लस्टर से एक निश्चित अनुपात के साथ SRS का उपयोग करके प्रतिदर्शी लेते हैं ( उदाहरण: क्लस्टर का प्रतिदर्शी आधा)।[11]: 3–8 

अपने फलनों में, लेस्ली किश और अन्य कई ज्ञात कारणों पर प्रकाश डालते हैं जो असमान चयन संभावनाओं को जन्म देते हैं:[1]: 425 [8]: 185 [7]: 69 [12]: 50, 395 [13]: 306 

  1. चयन फ्रेम या प्रक्रिया के कारण अनुपातहीन प्रतिदर्शी। ऐसा तब होता है जब एक शोधकर्ता उद्देश्यपूर्ण तरीके से अपने नमूने को प्रतिदर्शी विशिष्ट उप-आबादी या समूहों के ऊपर/नीचे डिज़ाइन करता है। ऐसे कई प्रकरण हैं जिनमें ऐसा हो सकता है। उदाहरण के लिए:
    • स्तरीकृत प्रतिदर्शी में#स्तरीकृत प्रतिदर्शी रणनीतियाँ जब कुछ स्तरों की इकाइयों को अन्य स्तरों की तुलना में बड़ा विचरण करने के लिए जाना जाता है। ऐसे प्रकरणों में, शोधकर्ता का इरादा स्ट्रैटम के बीच भिन्नता के बारे में इस पूर्व ज्ञान का उपयोग करना हो सकता है जिससे कि ब्याज के कुछ जनसंख्या स्तर के मापदंड के अनुमानक के समग्र भिन्नता को कम किया जा सके (जैसे: माध्य)। इसे प्रतिदर्शी आकार निर्धारण#स्तरीकृत प्रतिदर्शी आकार नामक रणनीति द्वारा प्राप्त किया जा सकता है, जिसमें एक स्तर उच्च मानक विचलन और कम प्रतिदर्शी लागत के अनुपात में अधिक प्रतिदर्शी लिया गया है (अर्थात: , जहाँ में परिणाम का मानक विचलन है , और से एक तत्व की भर्ती की लागत से संबंधित है ). इष्टतम आवंटन का एक उदाहरण नेमैन का इष्टतम आवंटन है, जब प्रत्येक स्तर की भर्ती के लिए लागत तय की जाती है, तो प्रतिदर्शी आकार होता है: . जहां योग सभी स्तरों पर है; n कुल प्रतिदर्शी आकार है; स्ट्रैटम एच ​​के लिए प्रतिदर्शी आकार है; समूची जनसंख्या N की तुलना में संस्तर h का सापेक्षिक आकार; और स्ट्रैटम एच ​​में मानक त्रुटि है। इष्टतम डिजाइन से संबंधित अवधारणा इष्टतम डिजाइन है।
    • यदि दो स्तरों (जैसे: दो विशिष्ट सामाजिक-जनसांख्यिकीय समूहों के लोग, या दो क्षेत्रों, आदि) की तुलना करने में रुचि है, तो इस प्रकरण में छोटे समूह का अधिक प्रतिदर्शी लिया जा सकता है। इस तरह, दो समूहों की तुलना करने वाले अनुमानक का प्रसरण कम हो जाता है।
    • क्लस्टर सैंपलिंग में विभिन्न आकारों के क्लस्टर हो सकते हैं, लेकिन सरल रैंडम सैंपल का उपयोग करके सभी क्लस्टर्स से प्रक्रिया के नमूने लिए जाते हैं, और क्लस्टर में सभी तत्वों को मापा जाता है (उदाहरण के लिए, यदि क्लस्टर आकार सैंपलिंग के चरण में पहले से ज्ञात नहीं हैं ).
    • दो-चरण के नमूने का उपयोग करते समय जिससे कि पहले चरण में समूहों को उनके आकार के अनुपात में प्रतिदर्शी लिया जाए (उर्फ: 'पीपीएस' आकार के अनुपात में संभावना), लेकिन फिर दूसरे चरण में केवल इकाइयों की एक विशिष्ट निश्चित संख्या ( उदाहरण: एक या दो) प्रत्येक क्लस्टर से चुने गए हैं - यह सुविधा/बजट विचारों के कारण हो सकता है। इसी तरह का प्रकरण तब होता है जब पहले चरण में पीपीएस का उपयोग करके प्रतिदर्शी लेने का प्रयास किया जाता है, लेकिन प्रत्येक इकाई में तत्वों की संख्या गलत होती है (जिससे कि कुछ छोटे क्लस्टर में चयन होने की संभावना अधिक हो सकती है। और इसके विपरीत। बड़े समूह जिनमें नमूने लेने की बहुत कम संभावना होती है)। ऐसे प्रकरणों में, पहले चरण में नमूने के फ्रेम में जितनी बड़ी त्रुटियां होंगी - उतनी ही बड़ी आवश्यक असमान चयन संभावनाएं होंगी।[6]: 109 
    • जब नमूने के लिए उपयोग किए जाने वाले फ्रेम में कुछ वस्तुओं का दोहराव सम्मिलित होता है, इस प्रकार कुछ वस्तुओं के नमूने लेने की संभावना दूसरों की तुलना में अधिक होती है (उदाहरण: यदि प्रतिदर्शी फ्रेम कई सूचियों को मिलाकर बनाया गया था। या यदि उपयोगकर्ताओं को भर्ती किया गया था। कई विज्ञापन चैनल - जिनमें कुछ उपयोगकर्ता कई चैनलों से भर्ती के लिए उपलब्ध हैं, जबकि अन्य केवल एक चैनल से भर्ती होने के लिए उपलब्ध हैं)। इनमें से प्रत्येक प्रकरण में - अलग-अलग इकाइयों में अलग-अलग प्रतिदर्शी लेने की संभावना होगी, इस प्रकार यह प्रतिदर्शी प्रक्रिया ईपीएसईएम नहीं होगी।[11]: 3–8 [8]: 186 
    • जब कई अलग-अलग नमूने/फ्रेम संयुक्त होते हैं। उदाहरण के लिए, यदि उत्तरदाताओं की भर्ती के लिए विभिन्न विज्ञापन अभियान चला रहे हैं। या जब अलग-अलग शोधकर्ताओं और/या अलग-अलग समय पर किए गए कई अध्ययनों के परिणामों को जोड़ते हैं (अर्थात: मेटा-विश्लेषण)।[8]: 188 
    जब अनुपातहीन प्रतिदर्शी होता है, प्रतिदर्शी डिजाइन निर्णयों के कारण, शोधकर्ता (कभी-कभी) निर्णय का पता लगाने में सक्षम हो सकता है और सटीक समावेशन संभावना की सटीक गणना कर सकता है। जब इन चयन संभावनाओं का पता लगाना कठिन होता है, तो सहायक चर (जैसे: आयु, लिंग, आदि) से जानकारी के साथ संयुक्त कुछ प्रवृत्ति स्कोर मॉडल का उपयोग करके अनुमान लगाया जा सकता है।
  2. गैर-कवरेज।[1]: 527, 528  ऐसा होता है, उदाहरण के लिए, यदि लोगों को कुछ पूर्व-निर्धारित सूची के आधार पर प्रतिदर्शी लिया जाता है जिसमें जनसंख्या में सभी लोग सम्मिलित नहीं होते हैं (उदाहरण: एक फ़ोन बुक या किसी सर्वेक्षण में लोगों को भर्ती करने के लिए विज्ञापनों का उपयोग करना)। कुछ लोगों के जानबूझकर बहिष्करण के विरोध में प्रतिदर्शी फ्रेम बनाने में कुछ विफलता के कारण ये लापता इकाइयां गायब हैं (उदाहरण के लिए: नाबालिग, लोग जो वोट नहीं दे सकते हैं, आदि)। प्रतिदर्शी संभावना पर गैर-कवरेज के प्रभाव को विभिन्न सर्वेक्षण स्थितियों में मापने (और समायोजित करने) के लिए मुश्किल माना जाता है, जब तक कि मजबूत धारणा नहीं बनाई जाती।
  3. गैर-प्रतिक्रिया। यह उन प्रतिदर्शी इकाइयों पर माप प्राप्त करने में विफलता को संदर्भित करता है जिन्हें मापने का इरादा है। गैर-प्रतिक्रिया के कारण विविध हैं और संदर्भ पर निर्भर करते हैं। एक व्यक्ति अस्थायी रूप से अनुपलब्ध हो सकता है, उदाहरण के लिए यदि वे सर्वेक्षण पूरा होने पर फोन उठाने के लिए उपलब्ध नहीं हैं। एक व्यक्ति कई कारणों से सर्वेक्षण का उत्तर देने से इंकार भी कर सकता है, जैसे: विभिन्न जातीय/जनसांख्यिकीय/सामाजिक-आर्थिक समूहों के लोगों की सामान्य रूप से प्रतिक्रिया देने की विभिन्न प्रवृत्तियाँ; समय व्यतीत करने या डेटा साझा करने के लिए अपर्याप्त प्रोत्साहन; सर्वेक्षण चलाने वाली संस्था की पहचान; जवाब देने में असमर्थता (जैसे: बीमारी, निरक्षरता, या भाषा बाधा के कारण); प्रतिवादी नहीं मिला (उदाहरण: उन्होंने एक अपार्टमेंट स्थानांतरित कर दिया है); एन्कोडिंग या ट्रांसमिशन (अर्थात: माप त्रुटि) के समय प्रतिक्रिया खो गई/नष्ट हो गई। सर्वेक्षणों के संदर्भ में, ये कारण पूरे सर्वेक्षण के उत्तर देने या केवल विशिष्ट प्रश्नों से संबंधित हो सकते हैं।[1]: 532 [8]: 186 
  4. सांख्यिकीय समायोजन। इनमें प्रतिदर्शी (सांख्यिकी)#स्तरीकृत प्रतिदर्शी|पोस्ट-स्तरीकरण, रेकिंग, या प्रवृत्ति स्कोर मिलान#प्रवृत्ति स्कोर|प्रवृत्ति स्कोर (अनुमान) मॉडल जैसी विधियाँ सम्मिलित हो सकती हैं - कुछ ज्ञात के लिए नमूने का तदर्थ समायोजन करने के लिए उपयोग किया जाता है ( या अनुमानित) स्तर आकार। इस तरह की प्रक्रियाओं का उपयोग सैंपलिंग त्रुटि से लेकर प्रतिदर्शी त्रुटि के अंडर-कवरेज से लेकर गैर-प्रतिक्रिया तक के मुद्दों को कम करने के लिए किया जाता है।[14]: 45 [15] उदाहरण के लिए, यदि एक साधारण अनियमित नमूने का उपयोग किया जाता है, तो पोस्ट-स्तरीकरण (कुछ सहायक जानकारी का उपयोग करके) एक अनुमानक प्रदान नहीं करता है जो केवल एक भारित अनुमानक से समान रूप से बेहतर है। हालाँकि, इसे अधिक मजबूत अनुमानक के रूप में देखा जा सकता है।[16] वैकल्पिक रूप से, इन विधियों का उपयोग नमूने को कुछ लक्ष्य नियंत्रणों (अर्थात: ब्याज की जनसंख्या) के समान बनाने के लिए किया जा सकता है, एक प्रक्रिया जिसे मानकीकरण के रूप में भी जाना जाता है।[8]: 187  ऐसे प्रकरणों में, ये समायोजन निष्पक्ष अनुमानक प्रदान करने में मदद करते हैं (अधिकांशतः बढ़े हुए प्रसरण की लागत के साथ, जैसा कि निम्नलिखित अनुभागों में देखा गया है)। यदि मूल प्रतिदर्शी एक गैर-संभाव्यता प्रतिदर्शी है, तो स्तरीकरण के बाद के समायोजन बिल्कुल तदर्थ कोटा नमूने के समान हैं।[8]: 188, 189 

जब प्रतिदर्शी डिजाइन पूरी तरह से ज्ञात हो (कुछ के लिए अग्रणी स्ट्रैट एच से कुछ तत्वों के चयन की संभावना), और गैर-प्रतिक्रिया मापने योग्य है (अर्थात: हम जानते हैं कि केवल प्रेक्षणों का उत्तर स्ट्रैटा एच में दिया गया है), तो एक सटीक रूप से ज्ञात व्युत्क्रम संभाव्यता भार की गणना स्ट्रैटा एच से प्रत्येक तत्व के लिए की जा सकती है:.[8]: 186  कभी-कभी एक सांख्यिकीय समायोजन, जैसे पोस्ट-स्तरीकरण या रेकिंग, चयन संभावना का अनुमान लगाने के लिए उपयोग किया जाता है। उदाहरण: नमूने की तुलना करते समय हमारे पास एक ही लक्षित आबादी है, जिसे नियंत्रणों से मिलान के रूप में भी जाना जाता है। अनुमान प्रक्रिया केवल सम्मलिता आबादी को वैकल्पिक आबादी में समायोजित करने पर केंद्रित हो सकती है (उदाहरण के लिए, यदि कई क्षेत्रों से पूरे देश में खींचे गए पैनल से एक्सट्रपलेशन करने की कोशिश की जा रही है)। ऐसी स्थिति में, समायोजन कुछ अंशांकन कारक पर केंद्रित हो सकता है और वजन के रूप में गणना की जाएगी .[8]: 187  हालांकि, अन्य प्रकरणों में, कम-कवरेज और गैर-प्रतिक्रिया दोनों को सांख्यिकीय समायोजन के हिस्से के रूप में एक ही बार में तैयार किया जाता है, जो समग्र प्रतिदर्शी संभावना का अनुमान लगाता है (मान लीजिए ). ऐसे प्रकरण में, वजन बस हैं: . ध्यान दें कि जब सांख्यिकीय समायोजन का उपयोग किया जाता है, अधिकांशतः किसी मॉडल के आधार पर अनुमान लगाया जाता है। निम्नलिखित खंडों में सूत्रीकरण यह मानता है ज्ञात है, जो सांख्यिकीय समायोजन के लिए सही नहीं है (क्योंकि हमारे पास केवल है ). हालांकि, यदि यह माना जाता है कि अनुमान त्रुटि बहुत छोटा है तो निम्नलिखित वर्गों का उपयोग किया जा सकता है जैसे कि यह ज्ञात था। इस धारणा का सही होना मॉडलिंग के लिए उपयोग किए गए नमूने के आकार पर निर्भर करता है, और विश्लेषण के समय ध्यान में रखने योग्य है।

जब चयन संभावनाएँ भिन्न हो सकती हैं, तो प्रतिदर्शी आकार अनियमित होता है, और जोड़ीदार चयन संभावनाएँ स्वतंत्र होती हैं, हम इसे पॉइसन प्रतिदर्शी कहते हैं।[17]


अनुमानकों के गुणों का वर्णन करने के लिए डिजाइन आधारित बनाम मॉडल आधारित

अलग-अलग केस वेट के माध्यम से असमान संभाव्यता चयन के लिए समायोजन करते समय (उदाहरण: व्युत्क्रम संभाव्यता भार), हमें ब्याज की मात्रा के लिए विभिन्न प्रकार के अनुमानक मिलते हैं। हॉर्विट्ज़-थॉम्पसन अनुमानक जैसे अनुमानक कुल और जनसंख्या के माध्य के लिए निष्पक्ष अनुमानक (यदि चयन संभावनाएं वास्तव में ज्ञात हैं, या लगभग ज्ञात हैं) प्राप्त करते हैं। Deville और Särndal (1992) ने वजन का उपयोग करने वाले अनुमानकों के लिए "अंशांकन अनुमानक" शब्द गढ़ा, जैसे कि वे कुछ शर्तों को पूरा करते हैं, जैसे कि जनसंख्या के आकार के बराबर वजन का योग। और अधिक सामान्यतः, वजन का भारित योग एक सहायक चर की कुछ मात्रा के बराबर होता है: (उदाहरण: कि उत्तरदाताओं की भारित आयु का योग प्रत्येक आयु बकेट में जनसंख्या के आकार के बराबर है)।[18][15]: 132 [19]: 1 

अंशांकन अनुमानकों के गुणों के बारे में बहस करने के दो प्राथमिक तरीके हैं:[15]: 133–134 [20]

  1. अनियमितरण आधारित (या, प्रतिदर्शी डिजाइन आधारित) - इन प्रकरणों में, भार () और ब्याज के परिणाम के मूल्य नमूने में मापे गए सभी को ज्ञात माना जाता है। इस ढांचे में, परिणाम (Y) के (ज्ञात) मूल्यों में परिवर्तनशीलता है। हालांकि, केवल अनियमितता जनसंख्या में से किस तत्व से नमूने में ली गई थी (अधिकांशतः के रूप में निरूपित किया जाता है , 1 if तत्व प्राप्त करना नमूने में है और 0 यदि यह नहीं है)। एक साधारण अनियमित नमूने के लिए, प्रत्येक कुछ मापदंड के साथ एक स्वतंत्र और समान रूप से वितरित अनियमित चर | i.i.d बर्नौली वितरण होगा . सामान्य EPSEM के लिए (समान संभावना प्रतिदर्शी) अभी भी कुछ मापदंड के साथ बरनौली होगा , लेकिन वे अब स्वतंत्रता (संभाव्यता सिद्धांत) अनियमित चर नहीं होंगे। पोस्ट स्तरीकरण जैसी किसी चीज़ के लिए, प्रत्येक स्तर पर तत्वों की संख्या को अलग-अलग बहुराष्ट्रीय वितरण के रूप में तैयार किया जा सकता है कुछ स्तरों से संबंधित प्रत्येक तत्व के लिए समावेशन संभावनाएँ . इन प्रकरणों में प्रतिदर्शी आकार ही एक अनियमित चर हो सकता है।
  2. मॉडल आधारित - इन प्रकरणों में प्रतिदर्शी तय होता है, वज़न तय होता है, लेकिन ब्याज के परिणाम को एक अनियमित चर के रूप में माना जाता है। उदाहरण के लिए, पोस्ट-स्तरीकरण के प्रकरण में, परिणाम को कुछ रेखीय प्रतिगमन फलन के रूप में तैयार किया जा सकता है जहां स्वतंत्र चर सूचक चर होते हैं जो प्रत्येक अवलोकन को उसके प्रासंगिक स्तर पर मैप करते हैं, और परिवर्तनशीलता त्रुटि शब्द के साथ आती है।

जैसा कि हम बाद में देखेंगे, साहित्य में कुछ प्रमाण अनियमितकरण-आधारित रूपरेखा पर निर्भर करते हैं, जबकि अन्य मॉडल-आधारित परिप्रेक्ष्य पर ध्यान केंद्रित करते हैं। माध्य से भारित माध्य की ओर बढ़ते समय, अधिक जटिलता जुड़ जाती है। उदाहरण के लिए, सर्वेक्षण पद्धति के संदर्भ में अधिकांशतः जनसंख्या के आकार को ही एक अज्ञात मात्रा माना जाता है जिसका अनुमान लगाया जाता है। इसलिए भारित माध्य की गणना वास्तव में एक अनुपात अनुमानक पर आधारित है, जिसमें अंश पर कुल का एक अनुमानक और भाजक में जनसंख्या के आकार का एक अनुमानक होता है (विचरण की गणना को और अधिक जटिल बनाने के लिए)।[21]


सामान्य प्रकार के बाट

वज़न के कई प्रकार (और उपप्रकार) हैं, जिनका उपयोग करने और उनकी व्याख्या करने के विभिन्न तरीके हैं। कुछ भारों के साथ उनके निरपेक्ष मूल्य का कुछ महत्वपूर्ण अर्थ होता है, जबकि अन्य भारों के साथ महत्वपूर्ण भाग एक दूसरे से भारों के सापेक्ष मूल्य होते हैं। यह खंड कुछ अधिक सामान्य प्रकार के वज़न प्रस्तुत करता है जिससे कि उन्हें अनुवर्ती अनुभागों में संदर्भित किया जा सके।

  • फ्रीक्वेंसी वेट एक बुनियादी प्रकार का वेटिंग है, जिसे सांख्यिकी पाठ्यक्रमों के परिचय में प्रस्तुत किया गया है। इनके साथ, प्रत्येक भार एक पूर्णांक संख्या है जो नमूने में किसी वस्तु की आवृत्ति (आँकड़े) को इंगित करता है। इन्हें कभी-कभी दोहराव (या घटना) भार भी कहा जाता है। विशिष्ट मान का एक निरपेक्ष अर्थ होता है जो वजन बदलने पर खो जाता है (उदाहरण: स्केलिंग (ज्यामिति))। उदाहरण के लिए: यदि हमारे पास 2 और 3 के आवृत्ति भार मानों के साथ 10 और 20 की संख्याएँ हैं, तो हमारे डेटा को फैलाते समय यह है: 10,10, 20, 20, 20 (इनमें से प्रत्येक आइटम के लिए 1 के भार के साथ)। फ़्रीक्वेंसी वेट में डेटासेट में निहित जानकारी की मात्रा सम्मिलित होती है, और इस प्रकार बेसेल के सुधार का उपयोग करके वेटेड अंकगणितीय माध्य # फ़्रिक्वेंसी वेट अनुमान बनाने जैसी चीज़ों की अनुमति देता है। ध्यान दें कि इस तरह के वजन अधिकांशतः अनियमित चर होते हैं, क्योंकि डेटासेट में प्रत्येक मान से विशिष्ट वस्तुओं की संख्या अनियमित होती है।
  • व्युत्क्रम-विचरण भार तब होता है जब प्रत्येक तत्व को एक भार सौंपा जाता है जो उसके (ज्ञात) विचरण का व्युत्क्रम होता है।[22][8]: 187  जब सभी तत्वों की समान प्रत्याशा होती है, तो भारित औसत की गणना के लिए ऐसे वज़न का उपयोग करने से सभी भारित औसतों में सबसे कम भिन्नता होती है। सामान्य सूत्रीकरण में, ये भार ज्ञात हैं और अनियमित नहीं हैं (यह विश्वसनीयता भार से संबंधित प्रतीत होता है[definition needed]).
  • सामान्यीकृत (उत्तल) वज़न वज़न का एक सेट है जो एक उत्तल संयोजन बनाता है। अर्थात: प्रत्येक वजन 0 और 1 के बीच की एक संख्या है, और सभी भारों का योग 1 के बराबर है। (गैर-ऋणात्मक) भारों के किसी भी सेट को प्रत्येक भार को सभी भारों के योग से विभाजित करके सामान्यीकृत भार में बदला जा सकता है, जिससे ये बनते हैं वजन 1 के योग के लिए सामान्यीकृत।
एक संबंधित प्रपत्र प्रतिदर्शी आकार (n) के योग के लिए सामान्य किए गए भार हैं। ये (गैर-ऋणात्मक) वजन प्रतिदर्शी आकार (एन) के बराबर हैं, और उनका मतलब 1 है। वजन के किसी भी सेट को सभी वजन के औसत के साथ प्रत्येक वजन को विभाजित करके प्रतिदर्शी आकार में सामान्यीकृत किया जा सकता है। इन भारों की एक अच्छी सापेक्ष व्याख्या होती है जहां 1 से अधिक वजन वाले तत्व अधिक महत्वपूर्ण होते हैं (उनके सापेक्ष प्रभाव के संदर्भ में, कहते हैं, भारित औसत) फिर औसत अवलोकन, जबकि 1 से छोटे वजन औसत अवलोकन से कम महत्वपूर्ण होते हैं।
  • व्युत्क्रम संभाव्यता भार तब होता है जब प्रत्येक तत्व को एक भार दिया जाता है जो उस तत्व के चयन की व्युत्क्रम संभावना के लिए (आनुपातिक) होता है। जैसे, प्रयोग करके .[8]: 185  व्युत्क्रम संभाव्यता भार के साथ, हम सीखते हैं कि लक्षित आबादी में प्रत्येक तत्व कितनी वस्तुओं का प्रतिनिधित्व करता है। इसलिए, ऐसे भारों का योग ब्याज की लक्षित आबादी का आकार लौटाता है। व्युत्क्रम संभाव्यता भार को 1 के योग के लिए सामान्यीकृत किया जा सकता है या प्रतिदर्शी आकार (n) के योग के लिए सामान्यीकृत किया जा सकता है, और निम्न अनुभागों से कई गणनाओं से समान परिणाम प्राप्त होंगे।
जब एक प्रतिदर्शी सरल अनियमित प्रतिदर्शी # समान संभाव्यता प्रतिदर्शी (ईपीएसएम) होता है तो सभी संभावनाएं समान होती हैं और चयन संभावना के व्युत्क्रम उपज वजन जो एक दूसरे के बराबर होते हैं (वे सभी बराबर होते हैं) , जहाँ प्रतिदर्शी आकार है और जनसंख्या का आकार है)। ऐसे नमूने को सेल्फ वेटिंग सैंपल कहा जाता है।[8]: 193 

भारित समायोजनों को लागू करने के अप्रत्यक्ष तरीके भी हैं। उदाहरण के लिए, सम्मलिता प्रकरणों को इम्प्यूटेशन (सांख्यिकी) लापता टिप्पणियों (जैसे: गैर-प्रतिक्रिया से) के लिए डुप्लिकेट किया जा सकता है, विचरण के साथ इंप्यूटेशन (सांख्यिकी) #Multiple इंप्यूटेशन जैसे तरीकों का उपयोग करके अनुमान लगाया गया है। डेटा का एक पूरक व्यवहार कुछ प्रकरणों को हटाना (0 का भार देना) है। उदाहरण के लिए, जब अधिक-नमूने वाले समूहों के प्रभाव को कम करना चाहते हैं जो कुछ विश्लेषण के लिए कम आवश्यक हैं। दोनों प्रकरणों की प्रकृति व्युत्क्रम संभाव्यता भार के समान है, लेकिन व्यवहार में आवेदन वजन के एक अतिरिक्त कॉलम को लागू करने के अतिरिक्त डेटा की अधिक/कम पंक्तियाँ देता है (इनपुट को कुछ सॉफ़्टवेयर कार्यान्वयन में उपयोग करने के लिए संभावित रूप से सरल बनाता है)। फिर भी, इस तरह के कार्यान्वयन के परिणाम केवल वज़न का उपयोग करने के समान हैं। इसलिए अवलोकनों को हटाने के प्रकरण में डेटा को सामान्य सॉफ़्टवेयर कार्यान्वयन द्वारा आसानी से नियंत्रित किया जा सकता है, पंक्तियों को जोड़ने के प्रकरण में अनिश्चितता के अनुमानों के लिए विशेष समायोजन की आवश्यकता होती है। ऐसा नहीं करने से गलत निष्कर्ष निकल सकते हैं (अर्थात: अंतर्निहित मुद्दों के वैकल्पिक प्रतिनिधित्व का उपयोग करते समय कोई मुफ्त लंच प्रमेय नहीं है)।[8]: 189, 190 

किश द्वारा गढ़ा गया हापज़र्ड वेट शब्द का उपयोग उन वेट को संदर्भित करने के लिए किया जाता है जो असमान चयन संभावनाओं के लिए डिज़ाइन प्रभाव # स्रोत के अनुरूप होते हैं, लेकिन वे जो चयनित तत्वों की अपेक्षा या विचरण से संबंधित नहीं होते हैं।[8]: 190, 191 

अनुमानित अनुपात के साथ बेतरतीब वजन-माध्य () - किश का डिजाइन प्रभाव

सूत्र

का अप्रतिबंधित प्रतिदर्शी लेते समय तत्वों, फिर हम इन तत्वों को बेतरतीब ढंग से विभाजित कर सकते हैं अलग करना सेट स्ट्रैटम, उनमें से प्रत्येक में कुछ आकार होता है तत्व जिससे कि . प्रत्येक स्तर में सभी तत्व उन्हें कुछ (ज्ञात) गैर-नकारात्मक भार सौंपा गया है (). भार कुछ डिजाइन प्रभाव के व्युत्क्रम द्वारा उत्पादित किया जा सकता है # प्रत्येक स्तर में तत्वों के लिए असमान चयन संभावनाओं के स्रोत (अर्थात: पोस्ट-स्तरीकरण जैसी किसी चीज़ के बाद व्युत्क्रम संभाव्यता भार)। इस सेटिंग में, किश का डिज़ाइन प्रभाव, इस डिज़ाइन के कारण प्रतिदर्शी भारित अंकगणितीय माध्य के विचरण में वृद्धि के लिए (भार में परिलक्षित), बनाम कुछ परिणाम चर y का सरल अनियमित प्रतिदर्शी (जब वज़न और के बीच कोई संबंध नहीं है) परिणाम, अर्थात: बेतरतीब वजन) है:[1]: 427 [8]: 191(4.2) 

प्रत्येक वस्तु को उसके अपने स्तर से आने से उपचारित करके , किश (1992 में) ने उपरोक्त सूत्र को (जाने-माने) निम्नलिखित संस्करण में सरलीकृत किया:[8]: 191(4.3) [23]: 318 [4]: 8 

सूत्र का यह संस्करण तब मान्य होता है जब एक स्तर से कई अवलोकन लिए जाते हैं (अर्थात: प्रत्येक का वजन समान होता है), या जब बहुत सारे स्तर होते हैं तो उनमें से प्रत्येक का एक अवलोकन होता है, लेकिन उनमें से कई का समान होता है चयन की संभावना। जबकि व्याख्या थोड़ी अलग है, दो परिदृश्यों की गणना समान होती है।

ध्यान दें कि डिज़ाइन प्रभाव की किश की परिभाषा वज़न के भिन्नता के गुणांक (जिसे सापेक्ष भिन्नता, प्रासंगिकता या रिलावर भी कहा जाता है) से निकटता से जुड़ी हुई है (मानक विचलन का उपयोग करते समय#असंशोधित प्रतिदर्शी मानक विचलन|असंशोधित (जनसंख्या स्तर) प्रतिदर्शी मानक विचलन भिन्नता के गुणांक # अनुमान के लिए)। साहित्य में इसकी कई सूचनाएं हैं:[8]: 191 [12]: 396 

.

जहाँ का जनसंख्या विचरण है , और मतलब है। जब वज़न को प्रतिदर्शी आकार के लिए सामान्यीकृत किया जाता है (जिससे कि उनका योग n के बराबर हो और उनका माध्य 1 के बराबर हो), तब और सूत्र कम हो जाता है . हालांकि यह सच है कि हम मानते हैं कि वजन तय हो गया है, हम उनके भिन्नता के बारे में सोच सकते हैं क्योंकि प्रतिदर्शी (समान संभावना के साथ) वजन के हमारे सेट से एक वजन (इसी तरह हम सहसंबंध के बारे में कैसे सोचेंगे) द्वारा परिभाषित एक अनुभवजन्य वितरण फलन के भिन्नता के रूप में एक साधारण रेखीय प्रतिगमन में x और y का # प्रतिगमन रेखा को फ़िट करना)।

[Proof]

अनुमान और प्रमाण

उपरोक्त सूत्र डिजाइन प्रभाव # सामान्य प्रकार के वजन के आधार पर भारित माध्य के भिन्नता में वृद्धि देता है| अव्यवस्थित भार, जो दर्शाता है कि जब y का चयन डिज़ाइन प्रभाव # असमान चयन संभावनाओं के लिए स्रोतों का उपयोग करके किया गया है (बिना क्लस्टर के अंतर्गत कोई संबंध नहीं है, और परिणाम माप की प्रत्याशा या विचरण से कोई संबंध नहीं है);[8]: 190, 191  और y' वे प्रेक्षण हैं जो हमें प्राप्त होते यदि हम उन्हें सरल अनियमित नमूने से प्राप्त करते, तो:

एक डिजाइन प्रभाव से # डिजाइन आधारित बनाम मॉडल अनुमानकों के गुणों का वर्णन करने के लिए आधारित,[24] यह सूत्र तब मान्य होता है जब सभी n अवलोकन () हैं (कम से कम लगभग) असंबद्धता (संभावना सिद्धांत) (), समान विचरण के साथ () ब्याज की प्रतिक्रिया चर (y) में। यह यह भी मानता है कि वजन स्वयं एक अनियमित चर नहीं है, बल्कि कुछ ज्ञात स्थिरांक हैं (उदाहरण: चयन की संभावना का व्युत्क्रम, कुछ पूर्व-निर्धारित और ज्ञात प्रतिदर्शी (सांख्यिकी) के लिए)।

[Proof]

निम्नलिखित के लिए एक सरलीकृत सबूत है जब कोई क्लस्टर नहीं है (यानी: नमूने के तत्व के बीच कोई इंट्राक्लास सहसंबंध नहीं) और प्रत्येक स्तर में केवल एक अवलोकन शामिल है:[24]

संक्रमण:

  1. भारित माध्य की परिभाषा से।
  2. डिजाइन प्रभाव का उपयोग करना # सामान्य प्रकार के वजन | सामान्यीकृत (उत्तल) वजन की परिभाषा (वजन जो 1 के बराबर है): .
  3. प्रसरण#असंबद्ध चरों का योग (Bienaymé सूत्र)।
  4. यदि भार स्थिर हैं (प्रसरण से # प्रसरण के मूल गुण)। इसे कहने का दूसरा तरीका यह है कि भार प्रत्येक प्रेक्षण के लिए पहले से ही जाना जाता है i। अर्थात् हम वास्तव में गणना कर रहे हैं
  5. जब सभी अवलोकनों में समान भिन्नता हो ().

यदि y प्रेक्षण स्वतंत्र हैं और समान रूप से वितरित रैंडम वेरिएबल्स|i.i.d समान अपेक्षित मूल्य और भिन्नता के साथ हैं, तो y पर स्थितियां तुच्छ रूप से आयोजित की जाती हैं। ऐसे में हमारे पास है , और हम अनुमान लगा सकते हैं का उपयोग करके .[8][25] यदि y सभी समान अपेक्षाओं के साथ नहीं हैं तो हम गणना के लिए अनुमानित भिन्नता का उपयोग नहीं कर सकते हैं, क्योंकि यह अनुमान मानता है कि सभी की एक ही अपेक्षा है। विशेष रूप से, यदि वजन और परिणाम चर y के बीच एक संबंध है, तो इसका मतलब है कि y की अपेक्षा सभी टिप्पणियों के लिए समान नहीं है (बल्कि, प्रत्येक अवलोकन के लिए विशिष्ट वजन मान पर निर्भर है)। ऐसे प्रकरण में, जबकि डिज़ाइन प्रभाव सूत्र अभी भी सही हो सकता है (यदि अन्य शर्तों को पूरा किया जाता है), भारित माध्य के भिन्नता के लिए इसे एक अलग अनुमानक की आवश्यकता होगी। उदाहरण के लिए, भारित अंकगणितीय माध्य#भारित प्रतिदर्शी प्रसरण का उपयोग करना बेहतर हो सकता है।

यदि अलग हो तो s के अलग-अलग प्रसरण हैं, तो जबकि भारित प्रसरण सही जनसंख्या-स्तर विचरण को पकड़ सकता है, डिजाइन प्रभाव के लिए किश का सूत्र अब सत्य नहीं हो सकता है।

इसी तरह की समस्या तब होती है जब नमूनों में कुछ सहसंबंध संरचना होती है (जैसे क्लस्टर प्रतिदर्शी का उपयोग करते समय)।

साहित्य में वैकल्पिक परिभाषाएँ

यह ध्यान देने योग्य है कि साहित्य के कुछ स्रोत किश के डिजाइन प्रभाव के लिए निम्नलिखित वैकल्पिक परिभाषा देते हैं, जिसमें कहा गया है: भारित सर्वेक्षण के विचरण का अनुपात अनुपातहीन स्तरीकृत प्रतिदर्शी के अनुसार स्तरीकृत प्रतिदर्शी # स्तरीकृत प्रतिदर्शी रणनीतियों के अनुसार भिन्नता का अनुपात है। स्तर इकाई प्रसरण बराबर हैं।[23]: 318 [12]: 396 

यह परिभाषा थोड़ी भ्रामक हो सकती है, क्योंकि इसका अर्थ यह लगाया जा सकता है कि स्तरीकृत प्रतिदर्शी के माध्यम से आनुपातिक स्तरीकृत प्रतिदर्शी प्राप्त किया गया था, जिसमें प्रत्येक स्तर से इकाइयों की पूर्व-निर्धारित संख्या का चयन किया जाता है। इस तरह के चयन से विचरण में कमी आएगी (सरल अनियमित नमूने की तुलना में), क्योंकि यह प्रति स्ट्रैटम में तत्वों की विशिष्ट संख्या में कुछ अनिश्चितता को दूर करता है। यह किश की मूल परिभाषा से भिन्न है, जिसने डिजाइन के विचरण की तुलना एक साधारण अनियमित नमूने से की थी (जो प्रतिदर्शी के अनुपात में लगभग संभाव्यता उत्पन्न करेगा, लेकिन बिल्कुल नहीं - प्रत्येक स्तर में प्रतिदर्शी आकार में भिन्नता के कारण)। पार्क और ली (2006) यह कहते हुए इस पर प्रतिबिंबित करते हैं कि उपरोक्त व्युत्पत्ति के पीछे तर्क यह है कि अव्यवस्थित असमान भार के कारण [भारित माध्य] की सटीकता में हानि को अनुपातहीन स्तरीकृत नमूने के अनुसार विचरण के अनुपात से अनुमानित किया जा सकता है। आनुपातिक स्तरीकृत नमूने के अनुसार।[4]: 8  ये दोनों परिभाषाएँ एक-दूसरे से कितनी दूर हैं, साहित्य में इसका उल्लेख नहीं है।[citation needed] 1977 से अपनी पुस्तक में, कोचरन इष्टतम आवंटन से विचलन के कारण प्रसरण में आनुपातिक वृद्धि के लिए एक सूत्र प्रदान करता है (किश के सूत्रों को एल कहा जाएगा)।[2]: 116  हालांकि, किश के L से उस सूत्र का संबंध स्पष्ट नहीं है।[citation needed]

वैकल्पिक नामकरण परंपराएं

पहले के पेपर इस शब्द का प्रयोग करते थे .[8]: 192  जैसा कि डिज़ाइन प्रभाव की अधिक परिभाषाएँ सामने आईं, डिज़ाइन प्रभाव#किश का डिज़ाइन प्रभाव|असमान चयन संभावनाओं के लिए किश का डिज़ाइन प्रभाव निरूपित किया गया (या ) या केवल छोटे के लिए।[4]: 8 [12]: 396 [23]: 318  किश के डिजाइन प्रभाव को असमान भार प्रभाव (या सिर्फ यूडब्ल्यूई) के रूप में भी जाना जाता है, जिसे लियू एट अल द्वारा कहा जाता है। 2002 में।[26]: 2124 

जब परिणाम चयन संभावनाओं से संबंधित होता है

अनुमानित कुल के लिए स्पेंसर का डेफ ()

कुल के लिए अनुमानक प्रतिस्थापन अनुमानक के साथ पी-विस्तारित है (उर्फ: pwr-अनुमानक या हॉर्विट्ज़-थॉम्पसन अनुमानक)। यह एम मदों के एक साधारण अनियमित नमूने (प्रतिस्थापन के साथ, निरूपित SIR) पर आधारित है () आकार एम की आबादी से। प्रत्येक आइटम की संभावना है (k से 1 से N) को एक ड्रॉ में निकाला जाना है (, अर्थात: यह एक बहुराष्ट्रीय वितरण है)। संभावना है कि एक विशिष्ट हमारे नमूने में दिखाई देगा . प्रतिस्थापन मूल्य के साथ पी-विस्तार है निम्नलिखित प्रत्याशा के साथ: . इस तरह , pwr-आकलक, y के कुल योग के लिए एक निष्पक्ष अनुमानक है।[2]: 51 

2000 में, ब्रूस डी. स्पेंसर ने कुछ मात्रा के कुल (माध्य नहीं) के आकलन के विचरण के लिए डिजाइन प्रभाव का अनुमान लगाने के लिए एक सूत्र प्रस्तावित किया (), जब तत्वों की चयन संभावनाओं और ब्याज के परिणाम चर के बीच संबंध होता है।[27] इस सेटअप में, आकार n का एक प्रतिदर्शी आकार N की आबादी से (प्रतिस्थापन के साथ) तैयार किया जाता है। प्रत्येक आइटम को संभाव्यता के साथ खींचा जाता है (जहाँ , अर्थात: बहुराष्ट्रीय वितरण)। डिजाइन प्रभाव को परिभाषित करने के लिए चयन संभावनाओं का उपयोग किया जाता है # सामान्य प्रकार के वजन | सामान्यीकृत (उत्तल) वजन: . ध्यान दें कि n मदों के कुछ अनियमित सेट के लिए, वजन का योग केवल प्रत्याशा के आधार पर 1 के बराबर होगा () इसके चारों ओर योग की कुछ परिवर्तनशीलता के साथ (अर्थात: पॉइसन द्विपद वितरण से तत्वों का योग)। बीच के रिश्ते और निम्नलिखित (जनसंख्या) सरल रेखीय प्रतिगमन द्वारा परिभाषित किया गया है:

जहाँ तत्व i का परिणाम है, जो रैखिक रूप से निर्भर करता है अवरोधन के साथ और ढलान . फिट लाइन से अवशिष्ट है . हम परिणाम और अवशिष्ट के जनसंख्या प्रसरण को भी परिभाषित कर सकते हैं और . के बीच संबंध और है .

कुल y का अनुमान लगाने के लिए स्पेंसर का (अनुमानित) डिजाइन प्रभाव है:[27]: 138 [28]: 4 [12]: 401 

जहाँ:

  • अनुमान
  • ढलान का अनुमान है
  • जनसंख्या विचरण का अनुमान लगाता है , और
  • L वज़न का सापेक्षिक प्रसरण है, जैसा कि डिज़ाइन प्रभाव#फ़ॉर्मूला|किश के फ़ॉर्मूले में परिभाषित किया गया है: : .

यह मानता है कि प्रतिगमन मॉडल अच्छी तरह से फिट बैठता है जिससे कि चयन की संभावना और अवशिष्ट स्वतंत्रता (संभाव्यता सिद्धांत) हो, क्योंकि यह अवशिष्टों की ओर जाता है, और वर्ग अवशिष्ट, वजन के साथ असंबद्ध होने के लिए। अर्थात: वह और भी .[27]: 138 

जब जनसंख्या का आकार (N) बहुत बड़ा हो, तो सूत्र को इस प्रकार लिखा जा सकता है:[23]: 319 

(तब से , जहाँ )

यह सन्निकटन मानता है कि P और y के बीच रैखिक संबंध रखता है। और यह भी कि त्रुटियों के साथ वज़न का सहसंबंध, और त्रुटियों का वर्ग, दोनों शून्य हैं। अर्थात।: और .[28]: 4 

हम देखते हैं कि यदि , तब (अर्थात: y का औसत)। ऐसे प्रकरण में सूत्र कम हो जाता है

केवल यदि y का प्रसरण इसके माध्य से बहुत बड़ा है तो सबसे दाहिना पद 0 के करीब है (अर्थात: ), जो स्पेंसर के डिज़ाइन प्रभाव (अनुमानित कुल के लिए) को किश के डिज़ाइन प्रभाव के बराबर कम कर देता है (अनुपात के लिए):[28]: 5  . अन्यथा, दो सूत्र अलग-अलग परिणाम देंगे, जो कुल बनाम एक माध्य के डिजाइन प्रभाव के बीच अंतर को दर्शाता है।

अनुमानित अनुपात-माध्य के लिए पार्क और ली की डेफ ()

2001 में, पार्क और ली ने स्पेंसर के सूत्र को अनुपात-माध्य के प्रकरण में विस्तारित किया (अर्थात: जनसंख्या के आकार के अनुमानक के साथ कुल के अनुमानक को विभाजित करके माध्य का अनुमान लगाना)। यह है:[28]: 4 

जहाँ:

  • चयन की संभावनाओं की भिन्नता का (अनुमानित) गुणांक है।

पार्क और ली का सूत्र किश के सूत्र के बराबर है जब . दोनों सूत्र y के माध्य के डिजाइन प्रभाव से संबंधित हैं (जबकि स्पेंसर का डेफ कुल के अनुमान से संबंधित है)। सामान्यतः, कुल के लिए डेफ () अनुपात माध्य के लिए डेफ की तुलना में कम कुशल होता है () कब छोटा है। और सामान्यतः, दोनों डिजाइन प्रभावों की दक्षता को प्रभावित करता है।[4]: 8 

क्लस्टर प्रतिदर्शी

क्लस्टर सैंपलिंग का उपयोग करके एकत्र किए गए डेटा के लिए हम निम्नलिखित संरचना को मानते हैं:

  • प्रत्येक क्लस्टर और K क्लस्टर में अवलोकन, और कुल के साथ टिप्पणियों।
  • प्रेक्षणों में एक ब्लॉक मैट्रिक्स सहसंबंध मैट्रिक्स होता है जिसमें एक ही क्लस्टर से टिप्पणियों के प्रत्येक जोड़े को एक इंट्राक्लास सहसंबंध के साथ सहसंबद्ध किया जाता है # आधुनिक ICC परिभाषाएँ: सरल सूत्र लेकिन सकारात्मक पूर्वाग्रह | इंट्रा-क्लास सहसंबंध , जबकि अंतर समूहों से प्रत्येक जोड़ी असंबंधित है।[29] अर्थात, प्रेक्षणों के प्रत्येक जोड़े के लिए, और , यदि वे एक ही क्लस्टर से संबंधित हैं , हम पाते हैं . और दो अलग-अलग समूहों से दो आइटम सहसंबद्ध नहीं हैं, अर्थात: .
  • किसी भी क्लस्टर से एक तत्व को समान विचरण माना जाता है: .

जब सभी समूह समान आकार के हों डिजाइन प्रभाव डीeff1965 में किश द्वारा प्रस्तावित (और बाद में दूसरों द्वारा पुनः दौरा किया गया), इसके द्वारा दिया गया है:[1]: 162 [12]: 399 [4]: 9 [30][31][13]: 241 

इसे कभी-कभी के रूप में भी निरूपित किया जाता है .[26]: 2124 

विभिन्न पत्रों में, जब क्लस्टर आकार समान नहीं होते हैं, तो उपरोक्त सूत्र का भी उपयोग किया जाता है औसत क्लस्टर आकार के रूप में (इसे कभी-कभी इस रूप में भी निरूपित किया जाता है ).[32][24]: 105  ऐसे प्रकरणों में, किश का सूत्र (औसत क्लस्टर वजन का उपयोग करके) सटीक डिजाइन प्रभाव के रूढ़िवादी (ऊपरी सीमा) के रूप में कार्य करता है।[24]: 106 

असमान क्लस्टर आकार के लिए वैकल्पिक सूत्र सम्मलित हैं।[1]: 193  अनुवर्ती कार्य ने विभिन्न अनुमानों के साथ औसत क्लस्टर आकार का उपयोग करने की संवेदनशीलता पर चर्चा की थी।[33]


असमान चयन संभावनाएं क्लस्टर प्रतिदर्शी

1987 से अपने पेपर में, किश ने एक संयुक्त डिजाइन प्रभाव का प्रस्ताव दिया जिसमें भार के कारण दोनों प्रभाव सम्मिलित हैं जो असमान चयन संभावनाओं के साथ-साथ क्लस्टर प्रतिदर्शी के लिए खाते हैं:[32][24]: 105 [34]: 4 [28]: 2 

ऊपर के समान अंकन के साथ।

गैबलर एट अल द्वारा 1999 में प्रस्तावित अनुमानकों के औचित्य के गुणों का वर्णन करने के लिए इस सूत्र को एक डिजाइन प्रभाव # डिजाइन आधारित बनाम मॉडल आधारित प्राप्त हुआ।[24]


स्तरीकृत प्रतिदर्शी असमान चयन संभावनाएं क्लस्टर प्रतिदर्शी

2000 में, लियू और आरागॉन ने स्तरीकृत नमूने में विभिन्न स्तरों के लिए असमान चयन संभावनाओं के डिजाइन प्रभाव का एक अपघटन प्रस्तावित किया।[35] 2002 में, लियू एट अल। विस्तारित कि स्तरीकृत नमूने के लिए खाते में काम करना प्रत्येक स्तर के अंतर्गत असमान चयन संभावना भार का एक सेट है। क्लस्टर प्रतिदर्शी या तो वैश्विक या प्रति स्तर है।[26]इसी तरह का काम पार्क एट अल द्वारा भी किया गया था। 2003 में।[36]


उपयोग

डेफ मुख्य रूप से कई उद्देश्यों के लिए प्रयोग किया जाता है:[13]: 85 

  • डिजाइन विकसित करते समय - इसकी दक्षता का मूल्यांकन करने के लिए। अर्थात: यदि किसी निर्णय के कारण विचरण में संभावित रूप से बहुत अधिक वृद्धि हुई है, या यदि नया डिज़ाइन अधिक कुशल है (जैसे: स्तरीकृत नमूने के रूप में)।
  • प्रतिदर्शी आकार (समग्र, प्रति स्तर, प्रति क्लस्टर, आदि) के मार्गदर्शन के लिए एक मार्ग के रूप में, और भी
  • पोस्ट-हॉक वेटिंग विश्लेषण के साथ संभावित समस्याओं का मूल्यांकन करते समय (उदाहरण: गैर-प्रतिक्रिया समायोजन से)।[6]अंगूठे का कोई सार्वभौमिक नियम नहीं है जिसके लिए डिजाइन प्रभाव मूल्य बहुत अधिक है, लेकिन साहित्य यह इंगित करता है कुछ ध्यान देने की संभावना है।[12]: 396 

अपने 1995 के पेपर में, किश ने निम्नलिखित वर्गीकरण का प्रस्ताव दिया था कि डेफ कब उपयोगी है और उपयोगी नहीं है:[7]: 57–62 

  • डिज़ाइन प्रभाव तब अनावश्यक होता है जब: स्रोत जनसंख्या बारीकी से स्वतंत्र होती है और अनियमित चर समान रूप से वितरित होती है|i.i.d, या जब डेटा का प्रतिदर्शी डिज़ाइन एक साधारण अनियमित नमूने के रूप में तैयार किया गया था। यह तब भी कम उपयोगी होता है जब प्रतिदर्शी आकार अपेक्षाकृत छोटा होता है (व्यावहारिक कारणों से कम से कम आंशिक रूप से)। और यह भी कि यदि केवल वर्णनात्मक आँकड़े रुचि के हैं (अर्थात: बिंदु अनुमान)। यह भी सुझाव दिया जाता है कि यदि केवल कुछ आँकड़ों के लिए मानक त्रुटियों की आवश्यकता है, तो यह ठीक हो सकता है। डेफ को नजरअंदाज करने के लिए।
  • डिज़ाइन प्रभाव तब आवश्यक होता है जब: एक ही सर्वेक्षण पर मापे गए विभिन्न चरों के लिए औसत प्रतिदर्शी त्रुटियां। या जब समय की अवधि में कई सर्वेक्षणों से समान मापी गई मात्रा का औसत निकाला जाता है। या जब सरल आँकड़ों की त्रुटि (जैसे: माध्य) से अधिक जटिल वाले (जैसे: प्रतिगमन गुणांक) की त्रुटि से एक्सट्रपलेशन करते हैं। भविष्य के सर्वेक्षण को डिजाइन करते समय (लेकिन उचित सावधानी के साथ)। डेटा या इसके विश्लेषण के साथ स्पष्ट मुद्दों की पहचान करने के लिए सहायक आंकड़े के रूप में (उदाहरण के लिए: गलतियों से लेकर ग़ैर की उपस्थिति तक)।[8]: 191 

प्रतिदर्शी आकार की योजना बनाते समय, डिज़ाइन प्रभाव को ठीक करने के लिए काम किया गया है जिससे कि प्रतिदर्शी विचरण पर प्रतिदर्शी डिज़ाइन के प्रभाव से साक्षात्कारकर्ता प्रभाव (माप त्रुटि) को अलग किया जा सके।[37] जबकि किश को मूल रूप से उम्मीद थी कि डिजाइन प्रभाव डेटा के अंतर्निहित वितरण, प्रतिदर्शी की संभावनाओं, उनके सहसंबंधों और ब्याज के आंकड़ों के लिए संभव के रूप में अज्ञेयवादी होने में सक्षम होगा - अनुवर्ती शोध से पता चला है कि ये डिजाइन प्रभाव को प्रभावित करते हैं। इसलिए, इन गुणों पर सावधानीपूर्वक ध्यान दिया जाना चाहिए कि किस डेफ गणना का उपयोग करना है और इसका उपयोग कैसे करना है।[4]: 13 [28]: 6 

सॉफ्टवेयर कार्यान्वयन

किश का डिजाइन प्रभाव विभिन्न सांख्यिकीय सॉफ्टवेयर में लागू किया गया है:

इतिहास

डिजाइन प्रभाव शब्द को लेस्ली किश ने 1965 में अपनी पुस्तक सर्वे सैम्पलिंग में प्रस्तुत किया था।[1]: 88, 258  1995 से अपने पेपर में,[7]: 73  किश ने उल्लेख किया है कि एक समान अवधारणा, जिसे लेक्सिस अनुपात कहा जाता है, को 19वीं शताब्दी के अंत में वर्णित किया गया था। 1950 में रोनाल्ड फिशर द्वारा बारीकी से संबंधित इंट्राक्लास सहसंबंध का वर्णन किया गया था, जबकि किश और अन्य लोगों द्वारा 40 के दशक के अंत से 50 के दशक तक भिन्नताओं के अनुपात की गणना पहले ही प्रकाशित कर दी गई थी। किश की परिभाषा के अग्रदूतों में से एक 1951 में कॉर्नफील्ड द्वारा किया गया कार्य था।[38][4] 1965 से अपनी मूल पुस्तक में, किश ने डिज़ाइन प्रभाव के लिए सामान्य परिभाषा प्रस्तावित की (दो अनुमानकों के प्रसरण का अनुपात, एक कुछ डिज़ाइन वाले नमूने से और दूसरा एक साधारण अनियमित नमूने से)। अपनी पुस्तक में, किश ने #Design_effect_for_cluster_sampling (इंट्राक्लास सहसंबंध के साथ) के लिए सूत्र प्रस्तावित किया;[1]: 162  साथ ही प्रसिद्ध डिजाइन प्रभाव#किश का डिजाइन प्रभाव।[1]: 427  इन्हें अधिकांशतः किश के डिजाइन प्रभाव के रूप में जाना जाता है, और बाद में एक सूत्र में विलय कर दिया गया है।

यह भी देखें

संदर्भ

  1. 1.00 1.01 1.02 1.03 1.04 1.05 1.06 1.07 1.08 1.09 1.10 1.11 1.12 1.13 1.14 1.15 Kish, Leslie (1965). सर्वेक्षण नमूनाकरण. New York: John Wiley & Sons, Inc. ISBN 0-471-10949-5.
  2. 2.0 2.1 2.2 2.3 2.4 Carl-Erik Sarndal, Bengt Swensson, Jan Wretman (1992). Model Assisted Survey Sampling. ISBN 9780387975283.{{cite book}}: CS1 maint: uses authors parameter (link)
  3. Heo, Moonseong; Kim, Yongman; Xue, Xiaonan; Kim, Mimi Y. (2010). "अनुदैर्ध्य क्लस्टर यादृच्छिक परीक्षण में अनुवर्ती के अंत में एक हस्तक्षेप प्रभाव का पता लगाने के लिए नमूना आकार की आवश्यकता". Statistics in Medicine. 29 (3): 382–390. doi:10.1002/sim.3806. PMID 20014353. S2CID 30001378. Archived from the original on 5 January 2013.
  4. 4.00 4.01 4.02 4.03 4.04 4.05 4.06 4.07 4.08 4.09 4.10 Park, Inho, and Hyunshik Lee. "Design effects for the weighted mean and total estimators under complex survey sampling." Quality control and applied statistics 51.4 (2006): 381–384 (based on google scholar). Vol. 30, No. 2, pp. 183-193. Statistics Canada, Catalogue No. 12-001. Survey Methodology December 2004 (based on the PDF) (pdf)
  5. Everitt, B.S. (2002) The Cambridge Dictionary of Statistics, 2nd Edition. CUP. ISBN 0-521-81099-X
  6. 6.0 6.1 6.2 Kalton, G., J. M. Brick, and T. Le. "Estimating components of design effects for use in sample design. In household sample surveys in developing and transition countries,(Sales No. E. 05. XVII. 6). Department of Economic and Social Affairs." Statistics Division, United Nations, New York (2005). (pdf)
  7. 7.0 7.1 7.2 7.3 7.4 Kish, Leslie. "Methods for design effects." Journal of official Statistics 11.1 (1995): 55 (pdf)
  8. 8.00 8.01 8.02 8.03 8.04 8.05 8.06 8.07 8.08 8.09 8.10 8.11 8.12 8.13 8.14 8.15 8.16 8.17 8.18 8.19 8.20 Kish, Leslie, and J. Official Stat. "Weighting for unequal Pi." (1992): 183–200. (pdf link)
  9. Tom Leinster (18 December 2014). "प्रभावी नमूना आकार".
  10. "Design Effects and Effective Sample Size".
  11. 11.0 11.1 Source: Frerichs, R.R. Rapid Surveys (unpublished), © 2004. N, chapter 4 - Equal Probability of Selection (pdf)
  12. 12.0 12.1 12.2 12.3 12.4 12.5 12.6 Valliant, Richard, Jill A. Dever, and Frauke Kreuter. Practical tools for designing and weighting survey samples. New York: Springer, 2013.
  13. 13.0 13.1 13.2 Cochran, W. G. (1977). Sampling Techniques (3rd ed.). Nashville, TN: John Wiley & Sons. ISBN 978-0-471-16240-7
  14. Dever, Jill A., and Richard Valliant. "A comparison of variance estimators for post-stratification to estimated control totals." Survey Methodology 36.1 (2010): 45-56. (pdf)
  15. 15.0 15.1 15.2 Kott, Phillip S. "Using calibration weighting to adjust for nonresponse and coverage errors." Survey Methodology 32.2 (2006): 133. (pdf)
  16. Holt, David, and TM Fred Smith. "Post stratification." Journal of the Royal Statistical Society, Series A (General) 142.1 (1979): 33-46. (pdf)
  17. Ghosh, Dhiren, and Andrew Vogt. "Sampling methods related to Bernoulli and Poisson Sampling." Proceedings of the Joint Statistical Meetings. American Statistical Association Alexandria, VA, 2002. (pdf)
  18. डेविल, जीन-क्लाउड और कार्ल-एरिक सारंडल। सर्वेक्षण नमूने में अंशांकन अनुमानक। जर्नल ऑफ़ द अमेरिकन स्टैटिस्टिकल एसोसिएशन 87.418 (1992): 376-382।
  19. Brick, J. Michael, Jill Montaquila, and Shelley Roth. "Identifying problems with raking estimators." annual meeting of the American Statistical Association, San Francisco, CA. 2003. (pdf)
  20. Keiding, Niels, and David Clayton. "Standardization and control for confounding in observational studies: a historical perspective." Statistical Science (2014): 529-558. (pdf)
  21. Thomas Lumley (https://stats.stackexchange.com/users/249135/thomas-lumley), How to estimate the (approximate) variance of the weighted mean?, URL (version: 2021-05-25): link
  22. Kalton, Graham. "Standardization: A technique to control for extraneous variables." Journal of the Royal Statistical Society, Series C (Applied Statistics) 17.2 (1968): 118-136.
  23. 23.0 23.1 23.2 23.3 Henry, Kimberly A., and Richard Valliant. "A design effect measure for calibration weighting in single-stage samples." Survey Methodology 41.2 (2015): 315-331. (pdf)
  24. 24.0 24.1 24.2 24.3 24.4 24.5 Gabler, Siegfried, Sabine Häder, and Partha Lahiri. "A model based justification of Kish's formula for design effects for weighting and clustering." Survey Methodology 25 (1999): 105–106. (pdf)
  25. Little, Roderick J., and Sonya Vartivarian. "Does weighting for nonresponse increase the variance of survey means?." Survey Methodology 31.2 (2005): 161. pdf link
  26. 26.0 26.1 26.2 Liu, Jun, Vince Iannacchione, and Margie Byron. "Decomposing design effects for stratified sampling." Proceedings of the survey research methods section, american statistical association. 2002. (pdf)
  27. 27.0 27.1 27.2 Spencer, Bruce D. "An approximate design effect for unequal weighting when measurements may correlate with selection probabilities." Survey Methodology 26 (2000): 137-138. (pdf)
  28. 28.0 28.1 28.2 28.3 28.4 28.5 Park, Inho, and Hyunshik Lee. "The design effect: do we know all about it." Proceedings of the Annual Meeting of the American Statistical Association. 2001. (pdf)
  29. Alexander K. Rowe; Marcel Lama; Faustin Onikpo; Michael S. Deming (2002). "बेनिन में एक स्वास्थ्य सुविधा क्लस्टर सर्वेक्षण से डिजाइन प्रभाव और इंट्राक्लास सहसंबंध गुणांक". International Journal for Quality in Health Care. 14 (6): 521–523. doi:10.1093/intqhc/14.6.521. PMID 12515339.
  30. Bland, M (2005), "Cluster randomised trials in the medical literature", Notes for talks, York Univ
  31. Methods in Sample Surveys (pages 5–6)
  32. 32.0 32.1 Kish, L. (1987). Weighting in . The Survey Statistician, June 1987. (this paper doesn't seem to be available online, but is references in several places as the original source of this formula)
  33. Lynn, Peter, and Siegfried Gabler. Approximations to b* in the prediction of design effects due to clustering. No. 2004-07. ISER Working Paper Series, 2004. (pdf)
  34. Gabler, Siegfried, Sabine Hader, and Peter Lynn. Design effects for multiple design samples. No. 2005-12. ISER Working Paper Series, 2005. (pdf)
  35. Liu, J., and E. Aragon. "Subsampling strategies in longitudinal surveys." Proceedings of the Survey Research Methods Section, American Statistical Association. 2000. (pdf)
  36. Park, Inho (2003). "डिजाइन प्रभाव और सर्वेक्षण योजना" (PDF).
  37. Zins, Stefan, and Jan Pablo Burgard. "Considering interviewer and design effects when planning sample sizes." SURVEY METHODOLOGY 46.1 (2020): 93-119. (paper - html)
  38. Cochran, William G. "Modern methods in the sampling of human populations." American journal of public health and the nation's health 41.6 (1951): 647–668.


अग्रिम पठन