सेंसरिंग (सांख्यिकी): Difference between revisions

From Vigyanwiki
(Created page with "{{Short description|Condition in which the value of a measurement or observation is only partially known}} आंकड़ों में, सेंसरिंग एक ऐ...")
 
No edit summary
 
(11 intermediate revisions by 4 users not shown)
Line 1: Line 1:
{{Short description|Condition in which the value of a measurement or observation is only partially known}}
{{Short description|Condition in which the value of a measurement or observation is only partially known}}
आंकड़ों में, सेंसरिंग एक ऐसी स्थिति है जिसमें [[माप]] या [[अवलोकन]] का [[मूल्य (गणित)]] केवल आंशिक रूप से जाना जाता है।
आंकड़ों में, सेंसरिंग ऐसी स्थिति है जिसमें [[माप]] या [[अवलोकन]] का [[मूल्य (गणित)]] केवल आंशिक रूप से जाना जाता है।
   
   
उदाहरण के लिए, मान लीजिए [[मृत्यु दर]] पर दवा के प्रभाव को मापने के लिए एक अध्ययन किया जाता है। इस तरह के अध्ययन से यह पता चल सकता है कि मृत्यु के समय व्यक्ति की उम्र ''कम से कम'' 75 वर्ष (लेकिन अधिक भी हो सकती है) है। ऐसी स्थिति तब हो सकती है जब व्यक्ति 75 वर्ष की आयु में अध्ययन से हट जाता है, या यदि व्यक्ति 75 वर्ष की आयु में वर्तमान में जीवित है।
उदाहरण के लिए, मान लीजिए [[मृत्यु दर]] पर दवा के प्रभाव को मापने के लिए अध्ययन किया जाता है। इस तरह के अध्ययन से यह पता चल सकता है कि मृत्यु के समय व्यक्ति की उम्र कम से कम 75 वर्ष (लेकिन अधिक भी हो सकती है) है। ऐसी स्थिति तब हो सकती है जब व्यक्ति 75 वर्ष की आयु में अध्ययन से हट जाता है, या यदि व्यक्ति 75 वर्ष की आयु में वर्तमान में जीवित है।


सेंसरिंग तब भी होती है जब कोई मान मापने वाले उपकरण की सीमा के बाहर होता है। उदाहरण के लिए, एक बाथरूम का पैमाना केवल 140 किग्रा तक माप सकता है। यदि 160 किलो वजन वाले व्यक्ति को स्केल का उपयोग करके वजन किया जाता है, तो पर्यवेक्षक को केवल यह पता चलेगा कि व्यक्ति का वजन कम से कम 140 किलो है।
सेंसरिंग तब भी होती है जब कोई मान मापने वाले उपकरण की सीमा के बाहर होता है। उदाहरण के लिए बाथरूम का पैमाना केवल 140 किग्रा तक माप सकता है। यदि 160 किलो वजन वाले व्यक्ति को स्केल का उपयोग करके वजन किया जाता है तो पर्यवेक्षक को केवल यह पता चलेगा कि व्यक्ति का वजन कम से कम 140 किलो है।


सेंसर किए गए डेटा की समस्या, जिसमें कुछ चर का प्रेक्षित मूल्य आंशिक रूप से ज्ञात होता है, गायब डेटा की समस्या से संबंधित होता है, जहाँ कुछ चर का प्रेक्षित मान अज्ञात होता है।
सेंसर किए गए डेटा की समस्या जिसमें कुछ चर का प्रेक्षित मूल्य आंशिक रूप से ज्ञात होता है, लुप्त डेटा की समस्या से संबंधित होता है जहाँ कुछ चर का प्रेक्षित मान अज्ञात होता है।


सेंसरिंग को संबंधित विचार ट्रंकेशन (सांख्यिकी) के साथ भ्रमित नहीं होना चाहिए। सेंसरिंग के साथ, टिप्पणियों का परिणाम या तो लागू होने वाले सटीक मूल्य को जानने में होता है, या यह जानने में होता है कि मूल्य एक [[अंतराल (गणित)]] के भीतर है। काट-छाँट के साथ, टिप्पणियों का परिणाम किसी निश्चित सीमा के बाहर के मूल्यों में नहीं होता है: सीमा के बाहर जनसंख्या में मूल्यों को कभी नहीं देखा जाता है या यदि वे देखा जाता है तो कभी रिकॉर्ड नहीं किया जाता है। ध्यान दें कि आँकड़ों में, ट्रंकेशन [[ गोलाई ]] के समान नहीं है।
सेंसरिंग को संबंधित विचार काट-छांट (सांख्यिकी) के साथ भ्रमित नहीं होना चाहिए। सेंसरिंग के साथ टिप्पणियों का परिणाम या तो प्रयुक्त होने वाले सही मूल्य को जानने में होता है या यह जानने में होता है कि मूल्य [[अंतराल (गणित)]] के अन्दर है। काट-छाँट के साथ, टिप्पणियों का परिणाम किसी निश्चित सीमा के बाहर के मूल्यों में नहीं होता है सीमा के बाहर जनसंख्या में मूल्यों को कभी नहीं देखा जाता है या यदि वे देखा जाता है तो कभी रिकॉर्ड नहीं किया जाता है। ध्यान दें कि आँकड़ों में, ट्रंकेशन [[ गोलाई |गोलाई]] के समान नहीं है।  


== प्रकार ==
== प्रकार ==


* लेफ्ट सेंसरिंग - एक डेटा बिंदु एक निश्चित मूल्य से नीचे है लेकिन यह कितना अज्ञात है।
* बाएं सेंसरिंग - डेटा बिंदु निश्चित मूल्य से नीचे है लेकिन यह कितना अज्ञात है।
* अंतराल सेंसरिंग - एक डेटा बिंदु दो मूल्यों के बीच अंतराल पर कहीं है।
* अंतराल सेंसरिंग - डेटा बिंदु दो मूल्यों के बीच अंतराल पर कहीं है।
* राइट सेंसरिंग - एक डेटा बिंदु एक निश्चित मूल्य से ऊपर है लेकिन यह कितना अज्ञात है।
* दाये सेंसरिंग - डेटा बिंदु निश्चित मूल्य से ऊपर है लेकिन यह कितना अज्ञात है।
* टाइप I सेंसरिंग तब होती है जब किसी प्रयोग में विषयों या वस्तुओं की एक निर्धारित संख्या होती है और प्रयोग को पूर्व निर्धारित समय पर रोक दिया जाता है, जिस बिंदु पर शेष बचे हुए विषयों को राइट-सेंसर किया जाता है।
* टाइप I सेंसरिंग तब होती है जब किसी प्रयोग में विषयों या वस्तुओं की निर्धारित संख्या होती है और प्रयोग को पूर्व निर्धारित समय पर रोक दिया जाता है, जिस बिंदु पर शेष बचे हुए विषयों को दांया-सेंसर किया जाता है।
* टाइप II सेंसरिंग तब होती है जब किसी प्रयोग में विषयों या वस्तुओं की एक निर्धारित संख्या होती है और एक पूर्व निर्धारित संख्या के विफल होने पर प्रयोग बंद हो जाता है; शेष विषयों को फिर राइट-सेंसर किया जाता है।
* टाइप II सेंसरिंग तब होती है जब किसी प्रयोग में विषयों या वस्तुओं की निर्धारित संख्या होती है और पूर्व निर्धारित संख्या के विफल होने पर प्रयोग बंद हो जाता है; शेष विषयों को फिर दांया-सेंसर किया जाता है।
* रैंडम (या गैर-सूचनात्मक) सेंसरिंग तब होती है जब प्रत्येक विषय का सेंसरिंग समय होता है जो सांख्यिकीय रूप से उनकी विफलता के समय से स्वतंत्र होता है। देखा गया मूल्य सेंसरिंग और विफलता के समय का न्यूनतम है; जिन विषयों की विफलता का समय उनके सेंसरिंग समय से अधिक है, वे राइट-सेंसर हैं।
* रैंडम (या गैर-सूचनात्मक) सेंसरिंग तब होती है जब प्रत्येक विषय का सेंसरिंग समय होता है जो सांख्यिकीय रूप से उनकी विफलता के समय से स्वतंत्र होता है। देखा गया मूल्य सेंसरिंग और विफलता के समय का न्यूनतम है जिन विषयों की विफलता का समय उनके सेंसरिंग समय से अधिक है वे दांया-सेंसर हैं।


अंतराल सेंसरिंग तब हो सकती है जब किसी मूल्य को देखने के लिए फॉलो-अप या निरीक्षण की आवश्यकता होती है। बाएं और दाएं सेंसरिंग अंतराल सेंसरिंग के विशेष मामले हैं, अंतराल की शुरुआत क्रमशः शून्य या अंत में अनंत पर होती है।
अंतराल सेंसरिंग तब हो सकती है जब किसी मूल्य को देखने के लिए फॉलो-अप या निरीक्षण की आवश्यकता होती है। बाएं और दाएं सेंसरिंग अंतराल सेंसरिंग के विशेष स्थितियां हैं अंतराल की प्रारंभ क्रमशः शून्य या अंत में अनंत पर होती है।


बाएं सेंसर किए गए डेटा का उपयोग करने के लिए अनुमानक अलग-अलग होते हैं, और सभी डेटा सेटों के लिए अनुमान के सभी तरीके लागू नहीं हो सकते हैं या सबसे विश्वसनीय हो सकते हैं।<ref>{{cite journal |last=Helsel |first=D. |title=Much Ado About Next to Nothing: Incorporating Nondetects in Science |journal=Annals of Occupational Hygiene |volume=54 |issue=3 |pages=257–262 |year=2010 |doi=10.1093/annhyg/mep092 |pmid=20032004 |doi-access=free }}</ref>
बाएं सेंसर किए गए डेटा का उपयोग करने के लिए अनुमानक अलग-अलग होते हैं और सभी डेटा सेटों के लिए अनुमान के सभी विधियाँ प्रयुक्त नहीं हो सकते हैं या सबसे विश्वसनीय हो सकते हैं।<ref>{{cite journal |last=Helsel |first=D. |title=Much Ado About Next to Nothing: Incorporating Nondetects in Science |journal=Annals of Occupational Hygiene |volume=54 |issue=3 |pages=257–262 |year=2010 |doi=10.1093/annhyg/mep092 |pmid=20032004 |doi-access=free }}</ref>
समय अंतराल डेटा के साथ एक आम ग़लतफ़हमी बाएं सेंसर किए गए अंतराल के रूप में वर्ग के लिए है जहां प्रारंभ समय अज्ञात है। इन मामलों में हमारे पास समय अंतराल पर एक निचली सीमा होती है, इस प्रकार डेटा सही सेंसर किया जाता है (इस तथ्य के बावजूद कि गायब प्रारंभ बिंदु ज्ञात अंतराल के बाईं ओर होता है जब इसे समयरेखा के रूप में देखा जाता है!)
 
समय अंतराल डेटा के साथ सामान्य गलती बाएं सेंसर किए गए अंतराल के रूप में वर्ग के लिए है जहां प्रारंभ समय अज्ञात है। इन स्थितियो में हमारे पास समय अंतराल पर निचली सीमा होती है इस प्रकार डेटा सही सेंसर किया जाता है (इस तथ्य के अतिरिक्त गायब प्रारंभ बिंदु ज्ञात अंतराल के बाईं ओर होता है जब इसे समयरेखा के रूप में देखा जाता है।)


== विश्लेषण ==
== विश्लेषण ==


सेंसर किए गए डेटा को संभालने के लिए विशेष तकनीकों का उपयोग किया जा सकता है। विशिष्ट विफलता समय वाले परीक्षणों को वास्तविक विफलताओं के रूप में कोडित किया जाता है; सेंसर किए गए डेटा को सेंसरिंग के प्रकार और ज्ञात अंतराल या सीमा के लिए कोडित किया जाता है। विशेष सॉफ्टवेयर प्रोग्राम (अक्सर विश्वसनीयता इंजीनियरिंग उन्मुख) सारांश आँकड़ों, विश्वास अंतराल, आदि के लिए अधिकतम संभावना का अनुमान लगा सकते हैं।
सेंसर किए गए डेटा को संभालने के लिए विशिष्ट तकनीकों का उपयोग किया जा सकता है। विशिष्ट विफलता समय वाले परीक्षणों को वास्तविक विफलताओं के रूप में कोडित किया जाता है सेंसर किए गए डेटा को सेंसरिंग के प्रकार और ज्ञात अंतराल या सीमा के लिए कोडित किया जाता है। विशेष सॉफ्टवेयर प्रोग्राम (अधिकांशतः विश्वसनीयता इंजीनियरिंग उन्मुख) सारांश आँकड़ों, विश्वास अंतराल, आदि के लिए अधिकतम संभावना का अनुमान लगा सकते हैं।


=== महामारी विज्ञान ===
=== महामारी विज्ञान ===


सेंसर किए गए डेटा से जुड़ी एक सांख्यिकीय समस्या का विश्लेषण करने के शुरुआती प्रयासों में से एक था [[डेनियल बर्नौली]] का 1766 में [[चेचक]] की रुग्णता और मृत्यु दर डेटा का विश्लेषण [[टीकाकरण]] की प्रभावकारिता को प्रदर्शित करने के लिए।<ref>{{cite journal |last=Bernoulli |first=D. |year=1766 |title=Essai d'une nouvelle analyse de la mortalité causée par la petite vérole |journal=Mem. Math. Phy. Acad. Roy. Sci. Paris |postscript=,}} reprinted in Bradley (1971) 21 and Blower (2004)</ref> सेंसर की गई लागतों का अनुमान लगाने के लिए कापलान-मेयर अनुमानक का उपयोग करने वाला एक प्रारंभिक पेपर क्वेसेनबेरी एट अल था। (1989),<ref>{{cite journal |first1=C. P., Jr. |last1=Quesenberry |first2=B. |last2=Fireman |first3=R. A. |last3=Hiatt |first4=J. V. |last4=Selby |display-authors=1 |title=अधिग्रहित इम्यूनोडिफीसिअन्सी सिंड्रोम वाले रोगियों में अस्पताल में भर्ती होने का उत्तरजीविता विश्लेषण|journal=[[American Journal of Public Health]] |volume=79 |issue=12 |year=1989 |pages=1643–1647 |pmc=1349769 |pmid=2817192 |doi=10.2105/AJPH.79.12.1643 }}</ref> हालांकि इस दृष्टिकोण को लिन एट अल द्वारा अमान्य पाया गया।<ref>{{cite journal |last1=Lin |first1=D. Y. |last2=Feuer |first2=E. J. |last3=Etzioni |first3=R. |last4=Wax |first4=Y. |display-authors=1 |title=अपूर्ण अनुवर्ती डेटा से चिकित्सा लागत का अनुमान लगाना|journal=[[Biometrics (journal)|Biometrics]] |year=1997 |volume=53 |issue=2 |pages=419–434 |pmid=9192444 |doi=10.2307/2533947 |jstor=2533947 }}</ref> जब तक सभी रोगियों ने समय के साथ एक सामान्य नियतात्मक दर फ़ंक्शन के साथ लागत संचित नहीं की, उन्होंने लिन अनुमानक के रूप में ज्ञात एक वैकल्पिक अनुमान तकनीक का प्रस्ताव रखा।<ref>{{cite journal |last1=Wijeysundera |first1=H. C. |last2=Wang |first2=X. |last3=Tomlinson |first3=G. |last4=Ko |first4=D. T. |last5=Krahn |first5=M. D. |display-authors=1 |title=Techniques for estimating health care costs with censored data: an overview for the health services researcher |journal=[[ClinicoEconomics and Outcomes Research]] |year=2012 |volume=4 |pages=145–155 |pmc=3377439 |pmid=22719214 |doi=10.2147/CEOR.S31552 }}</ref>
सेंसर किए गए डेटा से जुड़ी सांख्यिकीय समस्या का विश्लेषण करने के प्रारंभी प्रयासों में से एक था [[डेनियल बर्नौली]] का 1766 में [[चेचक]] की रुग्णता और मृत्यु दर डेटा का विश्लेषण [[टीकाकरण]] की प्रभावकारिता को प्रदर्शित करने के लिए।<ref>{{cite journal |last=Bernoulli |first=D. |year=1766 |title=Essai d'une nouvelle analyse de la mortalité causée par la petite vérole |journal=Mem. Math. Phy. Acad. Roy. Sci. Paris |postscript=,}} reprinted in Bradley (1971) 21 and Blower (2004)</ref> सेंसर की गई लागतों का अनुमान लगाने के लिए कापलान-मेयर अनुमानक का उपयोग करने वाला प्रारंभिक पेपर क्वेसेनबेरी एट अल था (1989)<ref>{{cite journal |first1=C. P., Jr. |last1=Quesenberry |first2=B. |last2=Fireman |first3=R. A. |last3=Hiatt |first4=J. V. |last4=Selby |display-authors=1 |title=अधिग्रहित इम्यूनोडिफीसिअन्सी सिंड्रोम वाले रोगियों में अस्पताल में भर्ती होने का उत्तरजीविता विश्लेषण|journal=[[American Journal of Public Health]] |volume=79 |issue=12 |year=1989 |pages=1643–1647 |pmc=1349769 |pmid=2817192 |doi=10.2105/AJPH.79.12.1643 }}</ref> चूंकि इस दृष्टिकोण को लिन एट अल द्वारा अमान्य पाया गया<ref>{{cite journal |last1=Lin |first1=D. Y. |last2=Feuer |first2=E. J. |last3=Etzioni |first3=R. |last4=Wax |first4=Y. |display-authors=1 |title=अपूर्ण अनुवर्ती डेटा से चिकित्सा लागत का अनुमान लगाना|journal=[[Biometrics (journal)|Biometrics]] |year=1997 |volume=53 |issue=2 |pages=419–434 |pmid=9192444 |doi=10.2307/2533947 |jstor=2533947 }}</ref> जब तक सभी रोगियों ने समय के साथ सामान्य नियतात्मक दर फलन के साथ लागत संचित नहीं की उन्होंने लिन अनुमानक के रूप में ज्ञात वैकल्पिक अनुमान तकनीक का प्रस्ताव रखा।<ref>{{cite journal |last1=Wijeysundera |first1=H. C. |last2=Wang |first2=X. |last3=Tomlinson |first3=G. |last4=Ko |first4=D. T. |last5=Krahn |first5=M. D. |display-authors=1 |title=Techniques for estimating health care costs with censored data: an overview for the health services researcher |journal=[[ClinicoEconomics and Outcomes Research]] |year=2012 |volume=4 |pages=145–155 |pmc=3377439 |pmid=22719214 |doi=10.2147/CEOR.S31552 }}</ref>




=== ऑपरेटिंग जीवन परीक्षण ===
=== ऑपरेटिंग जीवन परीक्षण ===


[[Image:Censored Data Example.svg|right|thumb|250px|पांच [[प्रतिकृति (सांख्यिकी)]] परीक्षणों का उदाहरण जिसके परिणामस्वरूप चार विफलताएं और एक निलंबित समय के परिणामस्वरूप सेंसरिंग हुई।]]विश्वसनीयता इंजीनियरिंग परीक्षण में अक्सर किसी वस्तु (निर्दिष्ट शर्तों के तहत) पर एक परीक्षण आयोजित करना होता है ताकि यह निर्धारित किया जा सके कि विफल होने में कितना समय लगता है।
[[Image:Censored Data Example.svg|right|thumb|250px|पांच [[प्रतिकृति (सांख्यिकी)]] परीक्षणों का उदाहरण जिसके परिणामस्वरूप चार विफलताएं और निलंबित समय के परिणामस्वरूप सेंसरिंग हुई।]]विश्वसनीयता इंजीनियरिंग परीक्षण में अधिकांशतः किसी वस्तु (निर्दिष्ट शर्तों के अंतर्गत) पर परीक्षण आयोजित करना होता है ताकि यह निर्धारित किया जा सके कि विफल होने में कितना समय लगता है।
* कभी-कभी विफलता की योजना बनाई जाती है और अपेक्षित होती है लेकिन ऐसा नहीं होता है: ऑपरेटर त्रुटि, उपकरण खराब, परीक्षण विसंगति इत्यादि। परीक्षा परिणाम वांछित समय-से-विफलता नहीं था लेकिन समय-समय पर उपयोग किया जा सकता है (और होना चाहिए) -समाप्ति। सेंसर किए गए डेटा का उपयोग अनजाने में लेकिन आवश्यक है।
* कभी-कभी विफलता की योजना बनाई जाती है और अपेक्षित होती है लेकिन ऐसा नहीं होता है ऑपरेटर त्रुटि,उपकरण खराब, परीक्षण विसंगति इत्यादि परीक्षा परिणाम वांछित समय-से-विफलता नहीं था लेकिन समय-समय पर उपयोग किया जा सकता है (और होना चाहिए) समाप्ति सेंसर किए गए डेटा का उपयोग अनजाने में लेकिन आवश्यक है।
* कभी-कभी इंजीनियर एक परीक्षण कार्यक्रम की योजना बनाते हैं ताकि एक निश्चित समय सीमा या विफलताओं की संख्या के बाद, अन्य सभी परीक्षण समाप्त हो जाएं। इन निलंबित समयों को राइट-सेंसर किए गए डेटा के रूप में माना जाता है। सेंसर किए गए डेटा का उपयोग जानबूझकर किया गया है।
* कभी-कभी इंजीनियर परीक्षण फंक्शन की योजना बनाते हैं ताकि निश्चित समय सीमा या विफलताओं की संख्या के बाद, अन्य सभी परीक्षण समाप्त हो जाएं। इन निलंबित समयों को दाये-सेंसर किए गए डेटा के रूप में माना जाता है। सेंसर किए गए डेटा का उपयोग अनजाने किया गया है।
प्रतिकृति परीक्षणों से डेटा के विश्लेषण में असफल होने वाली वस्तुओं के लिए समय-से-विफलता और विफल नहीं होने वाले लोगों के लिए परीक्षण-समाप्ति दोनों शामिल हैं।
प्रतिकृति परीक्षणों से डेटा के विश्लेषण में असफल होने वाली वस्तुओं के लिए समय-से-विफलता और विफल नहीं होने वाले लोगों के लिए परीक्षण-समाप्ति दोनों सम्मिलित हैं।


=== सेंसर प्रतिगमन ===
=== सेंसर प्रतिगमन ===


1958 में [[जेम्स टोबिन]] द्वारा सेंसर किए गए प्रतिगमन मॉडल, [[टोबिट मॉडल]] के लिए एक पहले का मॉडल प्रस्तावित किया गया था।<ref>{{Cite journal |last=Tobin |first=James |year=1958 |title=सीमित आश्रित चरों के लिए संबंधों का अनुमान|journal=Econometrica |volume=26 |issue=1 |pages=24–36 |jstor=1907382 |doi=10.2307/1907382 |url=http://cowles.yale.edu/sites/default/files/files/pub/d00/d0003-r.pdf }}</ref>
1958 में [[जेम्स टोबिन]] द्वारा सेंसर किए गए प्रतिगमन मॉडल, [[टोबिट मॉडल]] के लिए पहले का मॉडल प्रस्तावित किया गया था।<ref>{{Cite journal |last=Tobin |first=James |year=1958 |title=सीमित आश्रित चरों के लिए संबंधों का अनुमान|journal=Econometrica |volume=26 |issue=1 |pages=24–36 |jstor=1907382 |doi=10.2307/1907382 |url=http://cowles.yale.edu/sites/default/files/files/pub/d00/d0003-r.pdf }}</ref>




=== संभावना ===
=== संभावना ===


संभाव्यता फलन, जो देखा गया था उसकी प्रायिकता या प्रायिकता घनत्व है, जिसे एक कल्पित मॉडल में पैरामीटरों के फलन के रूप में देखा जाता है। सेंसर किए गए डेटा पॉइंट्स को संभावना में शामिल करने के लिए सेंसर किए गए डेटा पॉइंट्स को सेंसर किए गए डेटा पॉइंट्स की संभावना द्वारा मॉडल दिए गए मॉडल पैरामीटर के फ़ंक्शन के रूप में दर्शाया जाता है, यानी घनत्व या संभावना द्रव्यमान के बजाय सीडीएफ (एस) का एक फ़ंक्शन।
संभाव्यता फलन, जो देखा गया था उसकी प्रायिकता या प्रायिकता घनत्व है, जिसे कल्पित मॉडल में पैरामीटरों के फलन के रूप में देखा जाता है। सेंसर किए गए डेटा बिंदु को संभावना में सम्मिलित करने के लिए सेंसर किए गए डेटा बिंदु को सेंसर किए गए डेटा बिंदु की संभावना द्वारा मॉडल दिए गए मॉडल पैरामीटर के फलन के रूप में दर्शाया जाता है यानी घनत्व या संभावना द्रव्यमान के अतिरिक्त सीडीएफ (s) का फलन होता है।


सबसे सामान्य सेंसरिंग मामला अंतराल सेंसरिंग है: <math>Pr( a< x\leqslant b) =F( b) -F( a)</math>, कहाँ <math>F( x)</math> संभाव्यता वितरण का सीडीएफ है, और दो विशेष मामले हैं:
सबसे सामान्य सेंसरिंग स्थितियां अंतराल सेंसरिंग है: <math>Pr( a< x\leqslant b) =F( b) -F( a)</math>, कहाँ <math>F( x)</math> संभाव्यता वितरण का सीडीएफ है, और दो विशेष स्थितियां हैं:


* वाम सेंसरिंग: <math>Pr( -\infty < x\leqslant b) =F( b) -F(-\infty)=F( b)-0=F(b) =Pr( x\leqslant b)</math>
* बाएं सेंसरिंग: <math>Pr( -\infty < x\leqslant b) =F( b) -F(-\infty)=F( b)-0=F(b) =Pr( x\leqslant b)</math>
* सही सेंसरिंग: <math>Pr( a< x\leqslant \infty ) =F( \infty ) -F( a) =1-F( a) =1-Pr( x\leqslant a) =Pr( x >a)</math>
* दाये सेंसरिंग: <math>Pr( a< x\leqslant \infty ) =F( \infty ) -F( a) =1-F( a) =1-Pr( x\leqslant a) =Pr( x >a)</math>
निरंतर संभाव्यता वितरण के लिए: <math>Pr( a< x\leqslant b) =Pr( a< x< b)</math>
निरंतर संभाव्यता वितरण के लिए: <math>Pr( a< x\leqslant b) =Pr( a< x< b)</math>




==== उदाहरण ====
==== उदाहरण ====
मान लीजिए हम जीवित रहने के समय में रुचि रखते हैं, <math>T_1, T_2, ..., T_n</math>, लेकिन हम निरीक्षण नहीं करते <math>T_i</math> सभी के लिए <math>i</math>. इसके बजाय, हम निरीक्षण करते हैं
मान लीजिए हम जीवित रहने के समय में रुचि रखते हैं, <math>T_1, T_2, ..., T_n</math>, लेकिन हम निरीक्षण नहीं करते <math>T_i</math> सभी के लिए <math>i</math>. इसके अतिरिक्त, हम निरीक्षण करते हैं।


:<math>(U_i, \delta_i)</math>, साथ <math>U_i = T_i</math> और <math>\delta_i = 1</math> अगर <math>T_i</math> वास्तव में मनाया जाता है, और
:<math>(U_i, \delta_i)</math>, साथ <math>U_i = T_i</math> और <math>\delta_i = 1</math> अगर <math>T_i</math> वास्तव में मनाया जाता है और
:<math>(U_i, \delta_i)</math>, साथ <math>U_i < T_i</math> और <math>\delta_i = 0</math> अगर हम सब जानते हैं कि है <math>T_i</math> से अधिक लंबा है <math>U_i</math>.
:<math>(U_i, \delta_i)</math>, साथ <math>U_i < T_i</math> और <math>\delta_i = 0</math> अगर हम सब जानते हैं कि है <math>T_i</math> से अधिक लंबा <math>U_i</math> है


कब <math>T_i > U_i, U_i</math> सेंसरिंग टाइम कहा जाता है।<ref>{{cite Q|Q98961801}}<!-- Likelihood Construction, Inference for Parametric Survival Distributions -->.</ref>
तब <math>T_i > U_i, U_i</math> सेंसरिंग टाइम कहा जाता है।<ref>{{cite Q|Q98961801}}<!-- Likelihood Construction, Inference for Parametric Survival Distributions -->.</ref>
यदि सेंसर करने का समय सभी ज्ञात स्थिरांक हैं, तो संभावना है
 
यदि सेंसर करने का समय सभी ज्ञात स्थिरांक हैं, तो संभावना है।


:<math>L = \prod_{i, \delta_i = 1} f(u_i) \prod_{i, \delta_i=0} S(u_i)</math>
:<math>L = \prod_{i, \delta_i = 1} f(u_i) \prod_{i, \delta_i=0} S(u_i)</math>
कहाँ <math>f(u_i)</math> = प्रायिकता घनत्व फ़ंक्शन का मूल्यांकन किया गया <math>u_i</math>,
जहाँ <math>f(u_i)</math> = प्रायिकता घनत्व <math>u_i</math> फलन का मूल्यांकन किया गया


और <math>S(u_i)</math> = संभावना है कि <math>T_i</math> से बड़ा है <math>u_i</math>, [[उत्तरजीविता समारोह]] कहा जाता है।
और <math>S(u_i)</math> = संभावना है कि <math>T_i</math> से बड़ा <math>u_i</math> है [[उत्तरजीविता समारोह|उत्तरजीविता फलन]] कहा जाता है।


इसे विफलता दर # जोखिम कार्य, मृत्यु दर की तात्कालिक शक्ति, के रूप में परिभाषित करके सरल बनाया जा सकता है
इसे विफलता दर जोखिम कार्य, मृत्यु दर की तात्कालिक शक्ति के रूप में परिभाषित करके सरल बनाया जा सकता है।


:<math>\lambda(u) = f(u)/S(u)</math>
:<math>\lambda(u) = f(u)/S(u)</math>
Line 81: Line 83:
:<math>L = \prod_i \lambda(u_i)^{\delta_i} S(u_i)</math>.
:<math>L = \prod_i \lambda(u_i)^{\delta_i} S(u_i)</math>.


घातीय वितरण के लिए, यह और भी आसान हो जाता है, क्योंकि खतरे की दर, <math>\lambda</math>, स्थिर है, और <math>S(u) = \exp(-\lambda u)</math>. तब:
घातीय वितरण के लिए, यह और भी आसान हो जाता है, क्योंकि खतरे की दर <math>\lambda</math>, स्थिर है और <math>S(u) = \exp(-\lambda u)</math>. तब


:<math>L(\lambda) = \lambda^k \exp (-\lambda \sum{u_i})</math>,
:<math>L(\lambda) = \lambda^k \exp (-\lambda \sum{u_i})</math>,


कहाँ <math>k = \sum{\delta_i}</math>.
जहाँ <math>k = \sum{\delta_i}</math>.


इससे हम आसानी से गणना कर लेते हैं <math>\hat{\lambda}</math>, अधिकतम संभावना अनुमान | अधिकतम संभावना अनुमान (MLE)। <math>\lambda</math>, निम्नलिखित नुसार:
इससे हम सरलता से गणना कर लेते हैं <math>\hat{\lambda}</math>, अधिकतम संभावना अनुमान अधिकतम संभावना अनुमान (MLE)। <math>\lambda</math>, निम्नलिखित  


:<math>l(\lambda) = \log(L(\lambda)) = k \log(\lambda) - \lambda \sum{u_i}</math>.
:<math>l(\lambda) = \log(L(\lambda)) = k \log(\lambda) - \lambda \sum{u_i}</math>.
Line 95: Line 97:
:<math>dl / d\lambda = k/\lambda - \sum{u_i}</math>.
:<math>dl / d\lambda = k/\lambda - \sum{u_i}</math>.


हम इसे 0 पर सेट करते हैं और इसके लिए हल करते हैं <math>\lambda</math> पाने के लिए और:
हम इसे 0 पर सेट करते हैं और इसके लिए हल करते हैं <math>\lambda</math> पाने के लिए


:<math>\hat \lambda = k / \sum u_i</math>.
:<math>\hat \lambda = k / \sum u_i</math>.


समान रूप से, पहली विफलता का औसत समय है:
समान रूप से, पहली विफलता का औसत समय है


:<math>1 / \hat\lambda = \sum u_i / k</math>.
:<math>1 / \hat\lambda = \sum u_i / k</math>.


यह एक्सपोनेंशियल डिस्ट्रीब्यूशन के लिए मानक एमएलई से अलग है जिसमें सेंसर किए गए अवलोकनों को केवल अंश में माना जाता है।
यह घातांकी रूप से वितरण के लिए मानक एमएलई से अलग है जिसमें सेंसर किए गए अवलोकनों को केवल अंश में माना जाता है।


== यह भी देखें ==
== यह भी देखें ==
Line 131: Line 133:
*"Engineering Statistics Handbook", NIST/SEMATEK, [http://www.itl.nist.gov/div898/handbook/]
*"Engineering Statistics Handbook", NIST/SEMATEK, [http://www.itl.nist.gov/div898/handbook/]


{{Statistics}}
[[Category:Collapse templates]]
[[Category: सांख्यिकीय डेटा प्रकार]] [[Category: उत्तरजीविता विश्लेषण]] [[Category: स्थिरता अभियांत्रिकी]]
 
 
 
[[Category: Machine Translated Page]]
[[Category:Created On 21/03/2023]]
[[Category:Created On 21/03/2023]]
[[Category:Lua-based templates]]
[[Category:Machine Translated Page]]
[[Category:Multi-column templates]]
[[Category:Navigational boxes| ]]
[[Category:Navigational boxes without horizontal lists]]
[[Category:Pages using div col with small parameter]]
[[Category:Pages with empty portal template]]
[[Category:Pages with script errors]]
[[Category:Portal-inline template with redlinked portals]]
[[Category:Short description with empty Wikidata description]]
[[Category:Sidebars with styles needing conversion]]
[[Category:Templates Vigyan Ready]]
[[Category:Templates that add a tracking category]]
[[Category:Templates that generate short descriptions]]
[[Category:Templates using TemplateData]]
[[Category:Templates using under-protected Lua modules]]
[[Category:Wikipedia fully protected templates|Div col]]

Latest revision as of 16:39, 18 April 2023

आंकड़ों में, सेंसरिंग ऐसी स्थिति है जिसमें माप या अवलोकन का मूल्य (गणित) केवल आंशिक रूप से जाना जाता है।

उदाहरण के लिए, मान लीजिए मृत्यु दर पर दवा के प्रभाव को मापने के लिए अध्ययन किया जाता है। इस तरह के अध्ययन से यह पता चल सकता है कि मृत्यु के समय व्यक्ति की उम्र कम से कम 75 वर्ष (लेकिन अधिक भी हो सकती है) है। ऐसी स्थिति तब हो सकती है जब व्यक्ति 75 वर्ष की आयु में अध्ययन से हट जाता है, या यदि व्यक्ति 75 वर्ष की आयु में वर्तमान में जीवित है।

सेंसरिंग तब भी होती है जब कोई मान मापने वाले उपकरण की सीमा के बाहर होता है। उदाहरण के लिए बाथरूम का पैमाना केवल 140 किग्रा तक माप सकता है। यदि 160 किलो वजन वाले व्यक्ति को स्केल का उपयोग करके वजन किया जाता है तो पर्यवेक्षक को केवल यह पता चलेगा कि व्यक्ति का वजन कम से कम 140 किलो है।

सेंसर किए गए डेटा की समस्या जिसमें कुछ चर का प्रेक्षित मूल्य आंशिक रूप से ज्ञात होता है, लुप्त डेटा की समस्या से संबंधित होता है जहाँ कुछ चर का प्रेक्षित मान अज्ञात होता है।

सेंसरिंग को संबंधित विचार काट-छांट (सांख्यिकी) के साथ भ्रमित नहीं होना चाहिए। सेंसरिंग के साथ टिप्पणियों का परिणाम या तो प्रयुक्त होने वाले सही मूल्य को जानने में होता है या यह जानने में होता है कि मूल्य अंतराल (गणित) के अन्दर है। काट-छाँट के साथ, टिप्पणियों का परिणाम किसी निश्चित सीमा के बाहर के मूल्यों में नहीं होता है सीमा के बाहर जनसंख्या में मूल्यों को कभी नहीं देखा जाता है या यदि वे देखा जाता है तो कभी रिकॉर्ड नहीं किया जाता है। ध्यान दें कि आँकड़ों में, ट्रंकेशन गोलाई के समान नहीं है।

प्रकार

  • बाएं सेंसरिंग - डेटा बिंदु निश्चित मूल्य से नीचे है लेकिन यह कितना अज्ञात है।
  • अंतराल सेंसरिंग - डेटा बिंदु दो मूल्यों के बीच अंतराल पर कहीं है।
  • दाये सेंसरिंग - डेटा बिंदु निश्चित मूल्य से ऊपर है लेकिन यह कितना अज्ञात है।
  • टाइप I सेंसरिंग तब होती है जब किसी प्रयोग में विषयों या वस्तुओं की निर्धारित संख्या होती है और प्रयोग को पूर्व निर्धारित समय पर रोक दिया जाता है, जिस बिंदु पर शेष बचे हुए विषयों को दांया-सेंसर किया जाता है।
  • टाइप II सेंसरिंग तब होती है जब किसी प्रयोग में विषयों या वस्तुओं की निर्धारित संख्या होती है और पूर्व निर्धारित संख्या के विफल होने पर प्रयोग बंद हो जाता है; शेष विषयों को फिर दांया-सेंसर किया जाता है।
  • रैंडम (या गैर-सूचनात्मक) सेंसरिंग तब होती है जब प्रत्येक विषय का सेंसरिंग समय होता है जो सांख्यिकीय रूप से उनकी विफलता के समय से स्वतंत्र होता है। देखा गया मूल्य सेंसरिंग और विफलता के समय का न्यूनतम है जिन विषयों की विफलता का समय उनके सेंसरिंग समय से अधिक है वे दांया-सेंसर हैं।

अंतराल सेंसरिंग तब हो सकती है जब किसी मूल्य को देखने के लिए फॉलो-अप या निरीक्षण की आवश्यकता होती है। बाएं और दाएं सेंसरिंग अंतराल सेंसरिंग के विशेष स्थितियां हैं अंतराल की प्रारंभ क्रमशः शून्य या अंत में अनंत पर होती है।

बाएं सेंसर किए गए डेटा का उपयोग करने के लिए अनुमानक अलग-अलग होते हैं और सभी डेटा सेटों के लिए अनुमान के सभी विधियाँ प्रयुक्त नहीं हो सकते हैं या सबसे विश्वसनीय हो सकते हैं।[1]

समय अंतराल डेटा के साथ सामान्य गलती बाएं सेंसर किए गए अंतराल के रूप में वर्ग के लिए है जहां प्रारंभ समय अज्ञात है। इन स्थितियो में हमारे पास समय अंतराल पर निचली सीमा होती है इस प्रकार डेटा सही सेंसर किया जाता है (इस तथ्य के अतिरिक्त गायब प्रारंभ बिंदु ज्ञात अंतराल के बाईं ओर होता है जब इसे समयरेखा के रूप में देखा जाता है।)

विश्लेषण

सेंसर किए गए डेटा को संभालने के लिए विशिष्ट तकनीकों का उपयोग किया जा सकता है। विशिष्ट विफलता समय वाले परीक्षणों को वास्तविक विफलताओं के रूप में कोडित किया जाता है सेंसर किए गए डेटा को सेंसरिंग के प्रकार और ज्ञात अंतराल या सीमा के लिए कोडित किया जाता है। विशेष सॉफ्टवेयर प्रोग्राम (अधिकांशतः विश्वसनीयता इंजीनियरिंग उन्मुख) सारांश आँकड़ों, विश्वास अंतराल, आदि के लिए अधिकतम संभावना का अनुमान लगा सकते हैं।

महामारी विज्ञान

सेंसर किए गए डेटा से जुड़ी सांख्यिकीय समस्या का विश्लेषण करने के प्रारंभी प्रयासों में से एक था डेनियल बर्नौली का 1766 में चेचक की रुग्णता और मृत्यु दर डेटा का विश्लेषण टीकाकरण की प्रभावकारिता को प्रदर्शित करने के लिए।[2] सेंसर की गई लागतों का अनुमान लगाने के लिए कापलान-मेयर अनुमानक का उपयोग करने वाला प्रारंभिक पेपर क्वेसेनबेरी एट अल था (1989)[3] चूंकि इस दृष्टिकोण को लिन एट अल द्वारा अमान्य पाया गया[4] जब तक सभी रोगियों ने समय के साथ सामान्य नियतात्मक दर फलन के साथ लागत संचित नहीं की उन्होंने लिन अनुमानक के रूप में ज्ञात वैकल्पिक अनुमान तकनीक का प्रस्ताव रखा।[5]


ऑपरेटिंग जीवन परीक्षण

पांच प्रतिकृति (सांख्यिकी) परीक्षणों का उदाहरण जिसके परिणामस्वरूप चार विफलताएं और निलंबित समय के परिणामस्वरूप सेंसरिंग हुई।

विश्वसनीयता इंजीनियरिंग परीक्षण में अधिकांशतः किसी वस्तु (निर्दिष्ट शर्तों के अंतर्गत) पर परीक्षण आयोजित करना होता है ताकि यह निर्धारित किया जा सके कि विफल होने में कितना समय लगता है।

  • कभी-कभी विफलता की योजना बनाई जाती है और अपेक्षित होती है लेकिन ऐसा नहीं होता है ऑपरेटर त्रुटि,उपकरण खराब, परीक्षण विसंगति इत्यादि परीक्षा परिणाम वांछित समय-से-विफलता नहीं था लेकिन समय-समय पर उपयोग किया जा सकता है (और होना चाहिए) समाप्ति सेंसर किए गए डेटा का उपयोग अनजाने में लेकिन आवश्यक है।
  • कभी-कभी इंजीनियर परीक्षण फंक्शन की योजना बनाते हैं ताकि निश्चित समय सीमा या विफलताओं की संख्या के बाद, अन्य सभी परीक्षण समाप्त हो जाएं। इन निलंबित समयों को दाये-सेंसर किए गए डेटा के रूप में माना जाता है। सेंसर किए गए डेटा का उपयोग अनजाने किया गया है।

प्रतिकृति परीक्षणों से डेटा के विश्लेषण में असफल होने वाली वस्तुओं के लिए समय-से-विफलता और विफल नहीं होने वाले लोगों के लिए परीक्षण-समाप्ति दोनों सम्मिलित हैं।

सेंसर प्रतिगमन

1958 में जेम्स टोबिन द्वारा सेंसर किए गए प्रतिगमन मॉडल, टोबिट मॉडल के लिए पहले का मॉडल प्रस्तावित किया गया था।[6]


संभावना

संभाव्यता फलन, जो देखा गया था उसकी प्रायिकता या प्रायिकता घनत्व है, जिसे कल्पित मॉडल में पैरामीटरों के फलन के रूप में देखा जाता है। सेंसर किए गए डेटा बिंदु को संभावना में सम्मिलित करने के लिए सेंसर किए गए डेटा बिंदु को सेंसर किए गए डेटा बिंदु की संभावना द्वारा मॉडल दिए गए मॉडल पैरामीटर के फलन के रूप में दर्शाया जाता है यानी घनत्व या संभावना द्रव्यमान के अतिरिक्त सीडीएफ (s) का फलन होता है।

सबसे सामान्य सेंसरिंग स्थितियां अंतराल सेंसरिंग है: , कहाँ संभाव्यता वितरण का सीडीएफ है, और दो विशेष स्थितियां हैं:

  • बाएं सेंसरिंग:
  • दाये सेंसरिंग:

निरंतर संभाव्यता वितरण के लिए:


उदाहरण

मान लीजिए हम जीवित रहने के समय में रुचि रखते हैं, , लेकिन हम निरीक्षण नहीं करते सभी के लिए . इसके अतिरिक्त, हम निरीक्षण करते हैं।

, साथ और अगर वास्तव में मनाया जाता है और
, साथ और अगर हम सब जानते हैं कि है से अधिक लंबा है

तब सेंसरिंग टाइम कहा जाता है।[7]

यदि सेंसर करने का समय सभी ज्ञात स्थिरांक हैं, तो संभावना है।

जहाँ = प्रायिकता घनत्व फलन का मूल्यांकन किया गया

और = संभावना है कि से बड़ा है उत्तरजीविता फलन कहा जाता है।

इसे विफलता दर जोखिम कार्य, मृत्यु दर की तात्कालिक शक्ति के रूप में परिभाषित करके सरल बनाया जा सकता है।

इसलिए

.

तब

.

घातीय वितरण के लिए, यह और भी आसान हो जाता है, क्योंकि खतरे की दर , स्थिर है और . तब

,

जहाँ .

इससे हम सरलता से गणना कर लेते हैं , अधिकतम संभावना अनुमान अधिकतम संभावना अनुमान (MLE)। , निम्नलिखित

.

तब

.

हम इसे 0 पर सेट करते हैं और इसके लिए हल करते हैं पाने के लिए

.

समान रूप से, पहली विफलता का औसत समय है

.

यह घातांकी रूप से वितरण के लिए मानक एमएलई से अलग है जिसमें सेंसर किए गए अवलोकनों को केवल अंश में माना जाता है।

यह भी देखें

संदर्भ

  1. Helsel, D. (2010). "Much Ado About Next to Nothing: Incorporating Nondetects in Science". Annals of Occupational Hygiene. 54 (3): 257–262. doi:10.1093/annhyg/mep092. PMID 20032004.
  2. Bernoulli, D. (1766). "Essai d'une nouvelle analyse de la mortalité causée par la petite vérole". Mem. Math. Phy. Acad. Roy. Sci. Paris, reprinted in Bradley (1971) 21 and Blower (2004)
  3. Quesenberry, C. P., Jr.; et al. (1989). "अधिग्रहित इम्यूनोडिफीसिअन्सी सिंड्रोम वाले रोगियों में अस्पताल में भर्ती होने का उत्तरजीविता विश्लेषण". American Journal of Public Health. 79 (12): 1643–1647. doi:10.2105/AJPH.79.12.1643. PMC 1349769. PMID 2817192.{{cite journal}}: CS1 maint: multiple names: authors list (link)
  4. Lin, D. Y.; et al. (1997). "अपूर्ण अनुवर्ती डेटा से चिकित्सा लागत का अनुमान लगाना". Biometrics. 53 (2): 419–434. doi:10.2307/2533947. JSTOR 2533947. PMID 9192444.
  5. Wijeysundera, H. C.; et al. (2012). "Techniques for estimating health care costs with censored data: an overview for the health services researcher". ClinicoEconomics and Outcomes Research. 4: 145–155. doi:10.2147/CEOR.S31552. PMC 3377439. PMID 22719214.
  6. Tobin, James (1958). "सीमित आश्रित चरों के लिए संबंधों का अनुमान" (PDF). Econometrica. 26 (1): 24–36. doi:10.2307/1907382. JSTOR 1907382.
  7. No label or title -- debug: Q98961801, Wikidata Q98961801.


अग्रिम पठन


बाहरी संबंध

  • "Engineering Statistics Handbook", NIST/SEMATEK, [1]