भारित न्यूनतम वर्ग

From Vigyanwiki
Revision as of 20:30, 7 July 2023 by alpha>Indicwiki (Created page with "{{Short description|Method for model fitting in statistics}} {{cleanup split|Least squares|Linear least squares (mathematics)|date=July 2018}} {{Regression bar}} भारि...")
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

Template:Cleanup split

भारित न्यूनतम वर्ग (डब्ल्यूएलएस), जिसे भारित रैखिक प्रतिगमन के रूप में भी जाना जाता है,[1][2] सामान्य न्यूनतम वर्गों और रैखिक प्रतिगमन का एक सामान्यीकरण है जिसमें अवलोकनों के असमान विचरण (विषमलैंगिकता) का ज्ञान प्रतिगमन में शामिल किया जाता है। डब्लूएलएस भी सामान्यीकृत न्यूनतम वर्गों की एक विशेषज्ञता है, जब त्रुटियों के सहप्रसरण मैट्रिक्स की सभी ऑफ-विकर्ण प्रविष्टियां शून्य होती हैं।

निरूपण

किसी मॉडल का किसी डेटा बिंदु पर फिट होना उसकी त्रुटियों और आँकड़ों में अवशेषों द्वारा मापा जाता है, , आश्रित चर के मापा मूल्य के बीच अंतर के रूप में परिभाषित, और मॉडल द्वारा अनुमानित मूल्य, :

यदि त्रुटियाँ असंबंधित हैं और उनमें समान भिन्नता है, तो फ़ंक्शन

पर न्यूनतम किया गया है , ऐसा है कि .

गॉस-मार्कोव प्रमेय से पता चलता है कि, जब ऐसा है, एक सर्वोत्तम रैखिक निष्पक्ष अनुमानक (बेस्ट लीनियर निष्पक्ष अनुमानक) है। हालाँकि, यदि माप असंबंधित हैं लेकिन अलग-अलग अनिश्चितताएँ हैं, तो एक संशोधित दृष्टिकोण अपनाया जा सकता है। अलेक्जेंडर ऐटकेन ने दिखाया कि जब वर्गाकार अवशेषों का भारित योग न्यूनतम किया जाता है, यदि प्रत्येक भार माप के विचरण के व्युत्क्रम के बराबर है तो यह सबसे अच्छा रैखिक निष्पक्ष अनुमानक है

वर्गों के इस योग के लिए क्रमिक समीकरण हैं
जो, एक रैखिक न्यूनतम वर्ग प्रणाली में संशोधित सामान्य समीकरण देते हैं,

जब अवलोकन संबंधी त्रुटियां असंबंधित होती हैं और भार मैट्रिक्स, W=Ω−1, विकर्ण है, इन्हें इस प्रकार लिखा जा सकता है

यदि त्रुटियां सहसंबद्ध हैं, तो परिणामी अनुमानक सबसे अच्छा रैखिक निष्पक्ष अनुमानक है यदि भार मैट्रिक्स अवलोकनों के विचरण-सहप्रसरण मैट्रिक्स के व्युत्क्रम के बराबर है।

जब त्रुटियां असंबंधित होती हैं, तो वजन मैट्रिक्स को कारक के रूप में गणना को सरल बनाना सुविधाजनक होता है . फिर सामान्य समीकरणों को सामान्य न्यूनतम वर्गों के समान रूप में लिखा जा सकता है:

जहां हम निम्नलिखित स्केल्ड मैट्रिक्स और वेक्टर को परिभाषित करते हैं:
यह एक प्रकार का श्वेतकरण परिवर्तन है; अंतिम अभिव्यक्ति में प्रवेशवार विभाजन शामिल है।

गैर-रेखीय न्यूनतम वर्ग प्रणालियों के लिए एक समान तर्क से पता चलता है कि सामान्य समीकरणों को निम्नानुसार संशोधित किया जाना चाहिए।

ध्यान दें कि अनुभवजन्य परीक्षणों के लिए, उपयुक्त डब्ल्यू निश्चित रूप से ज्ञात नहीं है और इसका अनुमान लगाया जाना चाहिए। इसके लिए व्यवहार्य सामान्यीकृत न्यूनतम वर्ग (एफजीएलएस) तकनीकों का उपयोग किया जा सकता है; इस मामले में यह एक विकर्ण सहप्रसरण मैट्रिक्स के लिए विशिष्ट है, इस प्रकार एक व्यवहार्य भारित न्यूनतम वर्ग समाधान प्राप्त होता है।

यदि अवलोकनों की अनिश्चितता बाहरी स्रोतों से ज्ञात नहीं है, तो दिए गए अवलोकनों से वजन का अनुमान लगाया जा सकता है। यह उपयोगी हो सकता है, उदाहरण के लिए, आउटलेर्स की पहचान करने के लिए। डेटा सेट से आउटलेर्स हटा दिए जाने के बाद, वज़न को एक पर रीसेट किया जाना चाहिए।[3]


प्रेरणा

कुछ मामलों में टिप्पणियों को महत्व दिया जा सकता है - उदाहरण के लिए, वे समान रूप से विश्वसनीय नहीं हो सकते हैं। इस मामले में, कोई वर्गों के भारित योग को कम कर सकता है:

कहाँ डब्ल्यूi > 0 वें अवलोकन का वजन है, और डब्ल्यू ऐसे वजन का विकर्ण मैट्रिक्स है।

आदर्श रूप से, वज़न माप के विचरण के गुणात्मक व्युत्क्रम के बराबर होना चाहिए। (इसका तात्पर्य यह है कि अवलोकन असंबद्ध हैं। यदि अवलोकन सहसंबद्ध हैं, तो अभिव्यक्ति लागू होता है. इस मामले में वजन मैट्रिक्स आदर्श रूप से अवलोकनों के विचरण-सहप्रसरण मैट्रिक्स के व्युत्क्रम के बराबर होना चाहिए)।[3]सामान्य समीकरण तब हैं:

इस पद्धति का उपयोग पुनरावृत्तीय रूप से पुनर्भारित न्यूनतम वर्गों में किया जाता है।

समाधान

पैरामीटर त्रुटियां और सहसंबंध

अनुमानित पैरामीटर मान प्रेक्षित मानों के रैखिक संयोजन हैं

इसलिए, पैरामीटर अनुमानों के अनुमानित विचरण-सहप्रसरण मैट्रिक्स के लिए एक अभिव्यक्ति टिप्पणियों में त्रुटियों से त्रुटि प्रसार द्वारा प्राप्त की जा सकती है। मान लें कि प्रेक्षणों के लिए प्रसरण-सहप्रसरण मैट्रिक्स को एम द्वारा और अनुमानित मापदंडों को एम द्वारा निरूपित किया जाता हैβ. तब
कब W = M−1, इससे यह सरल हो जाता है
जब इकाई भार का उपयोग किया जाता है (W = I, पहचान मैट्रिक्स), यह निहित है कि प्रयोगात्मक त्रुटियां असंबद्ध हैं और सभी समान हैं: M = σ2I, कहाँ σ2 एक अवलोकन का प्राथमिक विचरण है। किसी भी स्थिति में, σ2का अनुमान कम ची-वर्ग द्वारा लगाया जाता है :
जहां S भारित #उद्देश्य फ़ंक्शन का न्यूनतम मान है:
हर, , स्वतंत्रता की डिग्री (सांख्यिकी) की संख्या है; सहसंबंधित टिप्पणियों के मामले में सामान्यीकरण के लिए स्वतंत्रता की डिग्री (सांख्यिकी)#प्रभावी स्वतंत्रता की डिग्री देखें।

सभी मामलों में, पैरामीटर अनुमान का विचरण द्वारा दिया गया है और पैरामीटर अनुमानों के बीच सहप्रसरण और द्वारा दिया गया है . मानक विचलन विचरण का वर्गमूल है, , और सहसंबंध गुणांक द्वारा दिया गया है . ये त्रुटि अनुमान माप में केवल यादृच्छिक त्रुटियों को दर्शाते हैं। मापदंडों में वास्तविक अनिश्चितता व्यवस्थित त्रुटियों की उपस्थिति के कारण बड़ी है, जिसे परिभाषा के अनुसार निर्धारित नहीं किया जा सकता है। ध्यान दें कि भले ही अवलोकन असंबंधित हो सकते हैं, पैरामीटर आमतौर पर पियर्सन उत्पाद-क्षण सहसंबंध गुणांक होते हैं।

पैरामीटर आत्मविश्वास सीमा

यह अक्सर किसी ठोस सबूत के अभाव में, लेकिन अक्सर केंद्रीय सीमा प्रमेय के लिए आकर्षक माना जाता है - सामान्य वितरण#घटना और अनुप्रयोग देखें - कि प्रत्येक अवलोकन पर त्रुटि शून्य और मानक विचलन के माध्य के साथ एक सामान्य वितरण से संबंधित है . उस धारणा के तहत इसकी अनुमानित मानक त्रुटि के संदर्भ में एकल स्केलर पैरामीटर अनुमान के लिए निम्नलिखित संभावनाएं प्राप्त की जा सकती हैं (सामान्य न्यूनतम वर्ग#बड़े नमूना गुण दिए गए हैं):

  • 68% वह अंतराल वास्तविक गुणांक मान शामिल है
  • 95% वह अंतराल वास्तविक गुणांक मान शामिल है
  • 99% वह अंतराल वास्तविक गुणांक मान शामिल है

यह धारणा अनुचित नहीं है जब n>>m। यदि प्रयोगात्मक त्रुटियों को सामान्य रूप से वितरित किया जाता है तो पैरामीटर एन - एम डिग्री की स्वतंत्रता (सांख्यिकी) के साथ एक छात्र के टी-वितरण से संबंधित होंगे। जब n ≫ m छात्र का t-वितरण एक सामान्य वितरण का अनुमान लगाता है। हालाँकि, ध्यान दें कि ये आत्मविश्वास सीमाएँ व्यवस्थित त्रुटि को ध्यान में नहीं रख सकती हैं। साथ ही, पैरामीटर त्रुटियों को केवल एक महत्वपूर्ण अंक तक उद्धृत किया जाना चाहिए, क्योंकि वे नमूनाकरण त्रुटि के अधीन हैं।[4] जब अवलोकनों की संख्या अपेक्षाकृत कम होती है, तो प्रायोगिक त्रुटियों के वितरण के बारे में किसी भी धारणा की परवाह किए बिना, चेबीचेव की असमानता का उपयोग संभावनाओं की ऊपरी सीमा के लिए किया जा सकता है: अधिकतम संभावनाएँ कि एक पैरामीटर 1, 2, या 3 मानक विचलन से अधिक होगा इसकी अपेक्षा से दूर मूल्य क्रमशः 100%, 25% और 11% हैं।

अवशिष्ट मूल्य और सहसंबंध

सांख्यिकी में त्रुटियाँ एवं अवशेष किसके द्वारा किये गये प्रेक्षणों से सम्बन्धित हैं

जहां H एक निष्क्रिय मैट्रिक्स है जिसे टोपी मैट्रिक्स के रूप में जाना जाता है:
और I पहचान मैट्रिक्स है। अवशिष्टों का प्रसरण-सहप्रसरण मैट्रिक्स, एम rद्वारा दिया गया है
इस प्रकार अवशेष सहसंबद्ध होते हैं, भले ही अवलोकन न हों।

कब ,

जब भी मॉडल फ़ंक्शन में एक स्थिर पद होता है तो भारित अवशिष्ट मानों का योग शून्य के बराबर होता है। अवशेषों के लिए अभिव्यक्ति को बायीं ओर से X से गुणा करेंT मेंT:
उदाहरण के लिए, कहें कि मॉडल का पहला पद एक स्थिरांक है, इसलिए सबके लिए मैं उस स्थिति में यह उसका अनुसरण करता है
इस प्रकार, उपरोक्त प्रेरक उदाहरण में, यह तथ्य कि अवशिष्ट मानों का योग शून्य के बराबर है, आकस्मिक नहीं है, बल्कि मॉडल में स्थिर पद, α की उपस्थिति का परिणाम है।

यदि प्रयोगात्मक त्रुटि सामान्य वितरण का अनुसरण करती है, तो, अवशेषों और अवलोकनों के बीच रैखिक संबंध के कारण, अवशेषों को भी ऐसा ही होना चाहिए,[5] लेकिन चूँकि अवलोकन सभी संभावित अवलोकनों की जनसंख्या का एक नमूना मात्र हैं, इसलिए अवशेष एक छात्र के टी-वितरण से संबंधित होने चाहिए। जब कोई विशेष अवशिष्ट अत्यधिक बड़ा प्रतीत होता है तो विद्यार्थीकृत अवशेष किसी बाह्य के लिए सांख्यिकीय परीक्षण करने में उपयोगी होते हैं।

यह भी देखें

संदर्भ

  1. "Weighted regression".
  2. "Visualize a weighted regression".
  3. 3.0 3.1 Strutz, T. (2016). "3". डेटा फिटिंग और अनिश्चितता (भारित न्यूनतम वर्ग और उससे आगे का व्यावहारिक परिचय). Springer Vieweg. ISBN 978-3-658-11455-8.
  4. Mandel, John (1964). प्रायोगिक डेटा का सांख्यिकीय विश्लेषण. New York: Interscience.
  5. Mardia, K. V.; Kent, J. T.; Bibby, J. M. (1979). बहुभिन्नरूपी विश्लेषण. New York: Academic Press. ISBN 0-12-471250-9.