न्यूनतम वर्ग विधि

From Vigyanwiki
द्विघात फलन वाले आँकड़ा बिंदुओं के समुच्चय को सटीक करने का परिणाम
न्यूनतम वर्ग पद्धति सन्निकटन का उपयोग करके बिंदुओं के समुच्चय को शंकु उपयुक्त करना

न्यूनतम वर्ग पद्धति मे, अवशिष्टों के वर्गों के योग को न्यूनतम करके अतिनिर्धारित प्रणालियों (समीकरणों के समुच्चय जिनमें अज्ञात से अधिक समीकरण हैं।) के समाधान का अनुमान लगाने के लिए न्यूनतम वर्ग पद्धति की विधि प्रतिगमन विश्लेषण में एक मानक दृष्टिकोण है। एक अवशिष्ट जिसके बीच का अंतर है। प्रेक्षित मान और एक प्रारूप द्वारा प्रदान किया गया उपयुक्त मान प्रत्येक व्यक्तिगत समीकरण के परिणामों में बनाया गया है।

सबसे महत्वपूर्ण अनुप्रयोग उपयुक्त आँकड़ा में है। जब समस्या में स्वतंत्र चर (x चर) में पर्याप्त अनिश्चितता होती है, तो सरल प्रतिगमन और न्यूनतम वर्ग पद्धति विधियों में समस्याएँ होती हैं। ऐसे स्थितियों में, न्यूनतम वर्ग पद्धति के लिए त्रुटियों में चर प्रारूप को सटीक करने के लिए आवश्यक पद्धति पर विचार किया जा सकता है।

न्यूनतम वर्ग पद्धति की समस्याएं दो श्रेणियों में आती हैं। रैखिक या सामान्य न्यूनतम वर्ग और अरेखीय न्यूनतम वर्ग, यह इस बात पर निर्भर करता है कि अवशिष्ट सभी अज्ञात में रैखिक हैं या नहीं। सांख्यिकीय प्रतिगमन विश्लेषण में रैखिक न्यूनतम वर्ग पद्धति समस्या होती है। इसका एक संवृत रूप समाधान है। गैर-रैखिक समस्या सामान्य रूप से पुनरावृत्त शोधन द्वारा हल की जाती है। प्रत्येक पुनरावृत्ति पर प्रणाली को एक रेखीय द्वारा अनुमानित किया जाता है, और इस प्रकार मूल गणना दोनों स्थितियों में समान होती है।

बहुपद न्यूनतम वर्ग पद्धति स्वतंत्र चर के एक कारक के रूप में आश्रित चर की पूर्वाकलन में भिन्नता और सटीक वक्र से विचलन का वर्णन करता है।

जब अवलोकन एक घातीय समूह मे पहचान के साथ आते हैं।, क्योंकि इसके प्राकृतिक पर्याप्त आंकड़े और हल्की-स्थितियां संतुष्ट होती हैं। (उदाहरण के लिए सामान्य, घातीय, प्वाइजन और द्विपद वितरण के लिए), मानकीकृत न्यूनतम-वर्ग अनुमान और अधिकतम-संभावना अनुमान समान होते हैं।[1] न्यूनतम वर्ग पद्धतियों की विधि को आघूर्ण अनुमानक की विधि के रूप में भी प्राप्त किया जा सकता है।

निम्नलिखित चर्चा ज्यादातर रैखिक कार्यों के संदर्भ में प्रस्तुत की जाती है, लेकिन कार्यों के अधिक सामान्य समूहों के लिए न्यूनतम वर्ग पद्धतियों का उपयोग उचित और व्यावहारिक है। साथ ही, संभाव्यता (फिशर्स जानकारी के माध्यम से) के लिए स्थानीय द्विघात सन्निकटन को पुनरावृत्त रूप से लागू करके, सामान्यीकृत रैखिक प्रारूप को व्यवस्थित करने के लिए न्यूनतम-वर्ग विधि का उपयोग किया जा सकता है। न्यूनतम वर्ग पद्धतियों को आधिकारिक रूप से एड्रियन मैरी लीजेंड्रे (1805) द्वारा खोजा और प्रकाशित किया गया था।[2] हालांकि इसे सामान्य रूप से कार्ल फ्रेडरिक गॉस (1795)[3][4] को भी सह-श्रेय दिया जाता है, जिन्होंने विधि में महत्वपूर्ण सैद्धांतिक प्रगति में योगदान दिया और हो सकता है कि उन्होंने पहले अपने कार्य में इसका उपयोग किया हो।[5][6]

इतिहास

संस्थापक

न्यूनतम वर्ग पद्धतियों की विधि खगोल विज्ञान और भूगणित के क्षेत्रों से विकसित हुई, क्योंकि वैज्ञानिकों और गणितज्ञों ने खोज के युग के दौरान पृथ्वी के महासागरों का मार्गनिर्देशन करने की चुनौतियों का समाधान प्रदान करने की मांग की थी। आकाशीय पिंडों के व्यवहार का सटीक विवरण जहाजों को खुले समुद्र में जाने के लिए सक्षम करने की कुंजी थी, जहां नाविक अब मार्गनिर्देशन के लिए भूमि के दर्शन पर विश्वास नहीं कर सकते थे।

यह पद्धति अठारहवीं शताब्दी के दौरान हुई कई प्रगतियों की परिणति थी।[7]

  • वास्तविक मान का सबसे अच्छा अनुमान होने के लिए विभिन्न अवलोकनों का संयोजन त्रुटियों में वृद्धि के अतिरिक्त एकत्रीकरण के साथ कमी आती है, संभवतः पहली बार 1722 में रोजर कोट्स द्वारा व्यक्त की गई थी।
  • एक ही अवलोकन को सटीक रूप से देखने और रिकॉर्ड करने के लिए अपनी पूरी कोशिश करने के विपरीत समान परिस्थितियों में लिए गए विभिन्न अवलोकनों का संयोजन दृष्टिकोण को औसत की विधि के रूप में जाना जाता था। 1750 में चंद्रमा के लिब्रेशन का अध्ययन करते समय टोबियास मेयर द्वारा इस दृष्टिकोण का विशेष रूप से उपयोग किया गया था, और 1788 में बृहस्पति और शनि की गति में अंतर को समझाने में पियरे-साइमन लाप्लास द्वारा अपने कार्य में।
  • विभिन्न परिस्थितियों में लिए गए विभिन्न प्रेक्षणों का संयोजन। विधि को न्यूनतम निरपेक्ष विचलन की विधि के रूप में जाना जाने लगा। यह 1757 में पृथ्वी के आकार पर अपने कार्य रोजर जोसेफ बोस्कोविच द्वारा और 1799 में इसी समस्या के लिए पियरे-साइमन लाप्लास द्वारा विशेष रूप से प्रदर्शित किया गया था।
  • एक मानदंड का विकास जिसका मान यह निर्धारित करने के लिए किया जा सकता है कि न्यूनतम त्रुटि वाला समाधान कब प्राप्त किया गया है। लाप्लास ने त्रुटियों के लिए संभाव्यता घनत्व के गणितीय रूप को निर्दिष्ट करने का प्रयास किया और अनुमान की एक विधि को परिभाषित किया जो अनुमान की त्रुटि को न्यूनतम करता है। इस उद्देश्य के लिए, लाप्लास ने एक सममित दो तरफा घातीय वितरण का उपयोग किया। जिसे अब हम त्रुटि वितरण को प्रारूप करने के लिए लाप्लास वितरण कहते हैं, और अनुमान की त्रुटि के रूप में पूर्ण विचलन के योग का उपयोग किया। उन्होंने महसूस किया कि ये सबसे सरल अनुमान हैं।, जो वे बना सकते हैं, और उन्होंने सर्वश्रेष्ठ अनुमान के रूप में अंकगणितीय माध्य प्राप्त करने की आशा की थी। इसके अतिरिक्त उनका अनुमानक पश्च माध्यिका था।

विधि

कार्ल फ्रेडरिक गॉस

न्यूनतम वर्ग पद्धति की विधि का पहला स्पष्ट और संक्षिप्त विवरण 1805 में लीजेंड्रे द्वारा प्रकाशित किया गया था।[8] तकनीकीय आँकड़ा के रैखिक समीकरणों को सटीक करने के लिए एक बीजगणितीय प्रक्रिया के रूप में वर्णित किया गया है और लीजेंड्रे पृथ्वी के आकार के लिए लाप्लास के समान आँकड़ा का विश्लेषण करके नई विधि का प्रदर्शन करता है। लीजेंड्रे के प्रकाशन के दस वर्षों के अन्दर, फ्रांस, इटली और प्रशिया में खगोल विज्ञान और भूगणित में एक मानक उपकरण के रूप में न्यूनतम वर्ग पद्धतियों की विधि को अपनाया गया था, जो एक वैज्ञानिक तकनीक की असाधारण तेजी से स्वीकृति का गठन करता है।[7]

1809 में कार्ल फ्रेडरिक गॉस ने आकाशीय पिंडों की कक्षाओं की गणना करने की अपनी पद्धति प्रकाशित की। उस कार्य में उन्होंने दावा किया कि 1795 के बाद से उनके पास न्यूनतम वर्ग पद्धतियों की विधि है। यह स्वाभाविक रूप से लीजेंड्रे के साथ एक प्राथमिकता विवाद का कारण बना। हालांकि, गॉस के श्रेय के लिए, वह लेजेंड्रे से आगे निकल गया और न्यूनतम वर्ग पद्धतियों की विधि को प्रायिकता के सिद्धांतों और सामान्य वितरण से जोड़ने में सफल रहा। वह लाप्लास के कार्यक्रम को पूरा करने में कार्य याब रहे थे, अज्ञात मापदंडों की एक सीमित संख्या के आधार पर, प्रेक्षणों के लिए संभाव्यता घनत्व के गणितीय रूप को निर्दिष्ट करने के लिए, और अनुमान की एक विधि को परिभाषित करते हैं जो अनुमान की त्रुटि को न्यूनतम करता है। गॉस ने दिखाया कि संभाव्यता घनत्व और अनुमान की विधि दोनों को परिवर्तित कर अंकगणित माध्य वास्तव में स्थान पैरामीटर का सबसे अच्छा अनुमान है। इसके बाद उन्होंने यह पूछकर समस्या को परिवर्तित कर दिया। कि घनत्व किस प्रकार का होना चाहिए और स्थान पैरामीटर के अनुमान के रूप में अंकगणितीय माध्य प्राप्त करने के लिए किस विधि का उपयोग किया जाना चाहिए। इस प्रयास में उन्होंने सामान्य वितरण का आविष्कार किया था।

गॉस की विधि की ताकत का एक प्रारंभिक प्रदर्शन तब हुआ जब इसका उपयोग नए खोजे गए क्षुद्रग्रह सेरेस(Ceres) के पूर्व स्थान की पूर्वानुमान करने के लिए किया गया। 1 जनवरी 1801 को, इतालवी खगोलशास्त्री ग्यूसेप पियाज़ी ने सेरेस की खोज की और सूर्य की तीव्र प्रकाश में खो जाने से पहले 40 दिनों तक इसके पथ को नियंत्रित करने में सक्षम रहे। इन आंकड़ों के आधार पर खगोलविदों ने ग्रहों की गति के केपलर के जटिल गैर-रैखिक समीकरणों को हल किए बिना सूर्य के पीछे से उभरने के बाद सेरेस का स्थान निर्धारित करना चाहा। हंगरी के खगोलशास्त्री जेवियर वॉन ज़ैच को सेरेस को स्थानांतरित करने की अनुमति देने वाली एकमात्र पूर्वानुमान 24 वर्षीय गॉस द्वारा न्यूनतम वर्ग पद्धति विश्लेषण का उपयोग करके की गई थीं।

1810 में, गॉस के कार्य को पढ़ने के बाद लाप्लास ने केंद्रीय सीमा प्रमेय को सिद्ध करने के बाद, इसका उपयोग न्यूनतम वर्ग पद्धतियों की विधि और सामान्य वितरण के लिए एक बड़ा प्रारूप औचित्य देने के लिए किया। 1822 में, गॉस यह बताने में सक्षम थे कि प्रतिगमन विश्लेषण के लिए न्यूनतम-वर्ग दृष्टिकोण इस अर्थ में सर्वोत्त्म है कि एक रैखिक प्रारूप में जहां त्रुटियों का माध्य शून्य, असंबद्ध और समान प्रसरण हैं, सबसे अच्छा रैखिक निष्पक्ष अनुमानक गुणांक सबसे न्यूनतम-वर्ग अनुमानक है। इस परिणाम को गॉस-मार्कोव प्रमेय के रूप में जाना जाता है।

न्यूनतम वर्ग पद्धतियों के विश्लेषण का विचार भी 1808 में अमेरिकी रॉबर्ट एड्रेन द्वारा स्वतंत्र रूप से तैयार किया गया था। अगली दो शताब्दियों में त्रुटियों के सिद्धांत और आंकड़ों में श्रमिकों ने न्यूनतम वर्ग पद्धतियों को लागू करने के कई अलग-अलग तरीके खोजे थे।[9]

निर्मेय कथन (Problem statement)

उद्देश्य में आँकड़ा समुच्चय को सर्वोत्तम रूप से सटीक करने के लिए प्रारूप फलन के पैरामीटर समायोजित करना सम्मिलित है। एक साधारण आँकड़ा समुच्चय में n बिंदु (आँकड़ा जोड़े) होते हैं , i = 1, …, n , जहाँ एक स्वतंत्र चर है और एक आश्रित चर है जिसका मान अवलोकन द्वारा पाया जाता है। प्रारूप फलन का रूप है। जहां m समायोज्य पैरामीटर सदिश में आयोजित किए जाते हैं। लक्ष्य उस प्रारूप के लिए पैरामीटर मान खोजना है, जो आँकड़ा के लिए सबसे उपयुक्त है। एक आँकड़ा बिंदु के लिए एक प्रारूप का सटीक इसकी त्रुटियों और आँकड़ों में अवशिष्टों द्वारा मापा जाता है, जो आश्रित चर के देखे गए मान और प्रारूप द्वारा अनुमानित मान के बीच अंतर के रूप में परिभाषित किया गया है।

अवशेषों को इसी के विरुद्ध प्लॉट किया जाता है मान। के बारे में यादृच्छिक उतार-चढ़ाव इंगित करें कि एक रेखीय प्रारूप उपयुक्त है।
न्यूनतम वर्ग पद्धति विधि वर्ग अवशिष्टों के योग को न्यूनतम करके सर्वोत्त्म पैरामीटर मान ढूंढती है,[10]

सरलतम स्थिति में और सबसे न्यूनतम वर्ग विधि का परिणाम निवेषित आँकड़ा का अंकगणितीय माध्य है।

दो आयामों में एक प्रारूप का उदाहरण सीधी रेखा है। Y-अवरोधन को के रूप में और ढलान को के रूप में दर्शाते हुए, प्रारूप फलन इस प्रारूप के पूरी तरह से विकसित उदाहरण के लिए रैखिक न्यूनतम वर्ग देखें।

एक आँकड़ा बिंदु में एक से अधिक स्वतंत्र चर सम्मिलित हो सकते हैं। उदाहरण के लिए, ऊंचाई माप के एक समुच्चय के लिए एक समतल को उपयुक्त करते समय, समतल दो स्वतंत्र चर, x और z को एक फलन कहते हैं। सबसे सामान्य स्थिति में प्रत्येक आँकड़ा बिंदु पर एक या अधिक स्वतंत्र चर और एक या अधिक आश्रित चर हो सकते हैं।

दाईं ओर एक अवशिष्ट भूखंड है, जो यादृच्छिक रूपांतरण को दर्शाता है , यह दर्शाता है कि एक रेखीय प्रारूप उचित है। एक स्वतंत्र यादृच्छिक चर है।[10]

अवशिष्टों को संबंधित के विरुद्ध प्लॉट किया जाता है मान के बारे में रूपांतरण का परवलीय आकार इंगित करें कि एक परवलीय प्रारूप उपयुक्त है।

यदि अवशिष्ट बिंदुओं में किसी प्रकार का आकार होता है और अक्रमतः(randomly) से रूपांतरण नहीं होता है, तो एक रैखिक प्रारूप उपयुक्त नहीं होगा। उदाहरण के लिए, यदि अवशिष्ट भूखंड में एक परवलीय आकार होता था, जैसा कि दाईं ओर देखा गया है, एक परवलीय प्रारूप आँकड़ा के लिए उपयुक्त होगा। एक परवलीय प्रारूप के अवशेषों की गणना के माध्यम से की जा सकती है।[10]

सीमाएं (Limitations)

यह प्रतिगमन सूत्रीकरण निर्भर चर में केवल अवलोकन संबंधी त्रुटियों पर विचार करता है। लेकिन वैकल्पिक कुल न्यूनतम वर्ग प्रतिगमन दोनों चर में त्रुटियों के लिए जिम्मेदार हो सकता है। अलग-अलग प्रभावों के साथ दो अलग-अलग संदर्भ हैं।

  • पूर्वानुमान के लिए प्रतिगमन यहां एक समान स्थिति में अनुप्रयोग के लिए पूर्वानुमान नियम प्रदान करने के लिए एक प्रारूप उपयुक्त किया गया है जिसमें उपयुक्त सटीकता के लिए उपयोग किया जाने वाला आँकड़ा लागू होता है। यहां ऐसे पूर्व के अनुमान से संबंधित आश्रित चर उसी प्रकार की अवलोकन त्रुटि के अधीन होंगे, जो सटीकता के लिए उपयोग किए गए आँकड़ा में हैं। इसलिए इस तरह के आँकड़ा के लिए न्यूनतम वर्ग पद्धति पूर्वानुमान नियम का उपयोग करना तार्किक रूप से सुसंगत है।
  • एक वास्तविक संबंध उपयुक्त करने के लिए प्रतिगमन मानक, प्रतिगमन विश्लेषण में जो न्यूनतम वर्ग पद्धतियों द्वारा सटीक करने की ओर जाता है, एक अंतर्निहित धारणा है कि स्वतंत्र चर में त्रुटियां शून्य या सख्ती से नियंत्रित होती हैं ताकि नगण्य हो। जब स्वतंत्र चर में त्रुटियां गैर-नगण्य हैं, माप त्रुटि के प्रारूप का उपयोग किया जा सकता है। इस तरह के तरीकों से पैरामीटर अनुमान, परिकल्पना परीक्षण और विश्वास अंतराल हो सकते हैं, जो स्वतंत्र चर में अवलोकन त्रुटियों की उपस्थिति को ध्यान में रखते हैं।[11] एक वैकल्पिक तरीका यह है कि किसी प्रारूप को न्यूनतम वर्ग पद्धतियों में उपयुक्त किया जाए। तो इसे प्रारूप सटीकता में उपयोग के लिए एक वस्तुनिष्ठ फलन तैयार करने में त्रुटि के विभिन्न स्रोतों के प्रभावों को संतुलित करने के लिए एक व्यावहारिक दृष्टिकोण के रूप में देखा जा सकता है।

न्यूनतम वर्ग पद्धतियों की समस्या का समाधान

प्रवणता का शून्य पर समुच्चय मे वर्गों का न्यूनतम योग पाया जाता है। चूँकि प्रारूप में m पैरामीटर हैं,तथा m प्रवणता समीकरण हैं।

और तब से , प्रवणता समीकरण बन जाते हैं
प्रवणता समीकरण सभी न्यूनतम वर्ग समस्याओं पर लागू होते हैं। प्रत्येक विशेष समस्या के लिए प्रारूप और उसके आंशिक व्युत्पन्न के लिए विशेष अभिव्यक्ति की आवश्यकता होती है।[12]

रैखिक न्यूनतम वर्ग पद्धति

एक प्रतिगमन प्रारूप एक रेखीय प्रारूप होता है जब प्रारूप में पैरामीटरों का एक रेखीय संयोजन सम्मिलित होता है, अर्थात,

जहां फलन का एक कार्य है।[12]

माना और आव्यूहों में स्वतंत्र और आश्रित चरों को रखना तथा क्रमशः हम निम्नतम वर्गों की गणना निम्न प्रकार से कर सकते हैं। ध्यान दें कि सभी आँकड़ा का समुच्चय है। [12][13]

हानि की प्रवणता -
हानि की प्रवणता को शून्य पर समुच्चय करना और इसके लिए हल करके को प्राप्त करते हैं [13][12]

गैर रेखीय न्यूनतम वर्ग पद्धति

कुछ स्थितियों में, गैर-रैखिक न्यूनतम वर्ग पद्धतियों की समस्या का एक संवृत-रूप समाधान है - लेकिन सामान्य रूप से ऐसा नहीं है। संवृत-रूप समाधान की स्थिति में, संख्यात्मक कलन विधि का उपयोग पैरामीटर के मान को खोजने के लिए किया जाता है, जो उद्देश्य को न्यूनतम करता है। अधिकांश कलन विधि में मापदंडों के लिए प्रारंभिक मान चुनना सम्मिलित है। फिर, मापदंडों को पुनरावृत्त रूप से परिष्कृत किया जाता है, अर्थात क्रमिक सन्निकटन द्वारा मान प्राप्त किए जाते हैं।

जहां एक अधिलेख k एक पुनरावृति संख्या है, और वेतन वृद्धि के सदिश को स्थानान्तरित सदिश कहा जाता है। कुछ सामान्य रूप से उपयोग किए जाने वाले कलन विधि में प्रत्येक पुनरावृत्ति पर प्रारूप को के बारे में प्रथम-क्रम टेलर श्रृंखला विस्तार के सन्निकटन द्वारा रैखिक किया जा सकता है।
जेकोबियन आव्यूह और निर्धारक j स्थिरांक, स्वतंत्र चर और मापदंडों का एक कार्य है, इसलिए यह एक पुनरावृत्ति से अगले में बदलता है। यह अवशेष द्वारा दिया जाता है
k वर्गों के योग को न्यूनतम करने के लिए , प्रवणता समीकरण को शून्य पर समुच्चय किया गया है और इसके लिए को हल किया गया है।
जो पुनर्व्यवस्था पर m एक साथ रैखिक समीकरण बन जाते हैं, सामान्य समीकरण-
सामान्य समीकरणों को आव्यूह संकेतन के रूप में लिखा जाता है।


ये गॉस-न्यूटन कलनविधि के परिभाषित समीकरण हैं।

रैखिक और गैर-रेखीय न्यूनतम वर्ग पद्धतियों के बीच अंतर

  • LLSQ (रैखिक न्यूनतम वर्ग) में प्रारूप फलन, f के पैरामीटर का एक रैखिक संयोजन है प्रारूप एक सीधी रेखा एक परवलय या कार्यों के किसी अन्य रैखिक संयोजन का प्रतिनिधित्व कर सकता है। NLLSQ (गैर-रेखीय न्यूनतम वर्ग) में पैरामीटर फलन के रूप में दिखाई देते हैं, जैसे कि इत्यादि। यदि व्युत्पन्न या तो स्थिर होते हैं या केवल स्वतंत्र चर के मानो पर निर्भर करते हैं, प्रारूप पैरामीटर में रैखिक है। अन्यथा प्रारूप अरेखीय होता है।
  • LLSQ समस्या का समाधान खोजने के लिए पैरामीटर के लिए प्रारंभिक मानों की आवश्यकता है। LLSQ को उनकी आवश्यकता नहीं होती है।
  • LLSQ के लिए समाधान कलन विधि में प्रायः आवश्यकता होती है कि जेकोबियन की गणना LLSQ के समान की जा सकती है। आंशिक व्युत्पन्न के लिए विश्लेषणात्मक अभिव्यक्ति जटिल हो सकती है। यदि विश्लेषणात्मक अभिव्यक्तियों को प्राप्त करना असंभव है तो या तो आंशिक व्युत्पन्न की गणना संख्यात्मक सन्निकटन द्वारा की जानी चाहिए या जैकोबियन का अनुमान लगाया जाना चाहिए, प्रायः परिमित अंतर के माध्यम से।
  • गैर-अभिसरण (कलनविधि की न्यूनतम खोजने में विफलता) NLLSQ में एक सामान्य घटना है।
  • LLSQ विश्व स्तर पर अवतल है इसलिए गैर-अभिसरण कोई समस्या नहीं होती है।
  • NLLSQ को हल करना सामान्य रूप से एक पुनरावृत्त प्रक्रिया है, जिसे एक अभिसरण मानदंड पूरा होने पर समाप्त करना पड़ता है। LLSQ समाधानों की गणना प्रत्यक्ष तरीकों का उपयोग करके की जा सकती है, हालांकि बड़ी संख्या में पैरामीटर वाली समस्याओं को सामान्य रूप से पुनरावृत्त तरीकों से हल किया जाता है, जैसे कि गॉस-सीडेल विधि।
  • LLSQ में समाधान अद्वितीय है, लेकिन NLLSQ में वर्गों के योग में कई न्यूनतम हो सकते हैं।
  • इस शर्त के तहत कि त्रुटियां पूर्वसूचक चर के साथ असंबंधित हैं, LLSQ निष्पक्ष अनुमान देता है, लेकिन उस स्थिति में भी NLLSQ अनुमान समान्यतः पक्षपाती होते हैं।

इन अंतरों पर विचार किया जाना चाहिए। जब भी एक गैर-रेखीय न्यूनतम वर्ग पद्धतियों की समस्या का समाधान खोजा जा रहा हो।[12]

उदाहरण

भौतिकी से लिए गए एक सरल उदाहरण पर विचार करें। एक स्प्रिंग को हुक के नियम का पालन करना चाहिए जो बताता है कि स्प्रिंग का विस्तार y उस पर लगाए गए बल F के समानुपाती होता है।

प्रारूप का गठन करता है, जहां F एक स्वतंत्र चर है। बल स्थिरांक k का अनुमान लगाने के लिए, हम आँकड़ा के एक समुच्चय का उत्पादन करने के लिए विभिन्न बलों के साथ n मापों की एक श्रृंखला आयोजित करते हैं, जहाँ yi एक माप स्प्रिंग विस्तार है।[14] प्रत्येक प्रयोगात्मक अवलोकन में कुछ त्रुटि होगी, और इसलिए हम अपनी टिप्पणियों के लिए एक अनुभवजन्य प्रारूप निर्दिष्ट कर सकते हैं।

अज्ञात पैरामीटर k का अनुमान लगाने के लिए हम कई विधियों का उपयोग कर सकते हैं। चूँकि हमारे आँकड़ा में m चरों में n समीकरणों में एक अज्ञात और n समीकरणों के साथ एक अतिनिर्धारित प्रणाली सम्मिलित है, हम न्यूनतम वर्ग पद्धतियों का उपयोग करके k का अनुमान लगाते हैं। न्यूनतम किए जाने वाले वर्गों का योग है।

[12]

बल स्थिरांक k, का न्यूनतम वर्ग अनुमान निम्न द्वारा दिया जाता है

हम मानते हैं कि बल लगाने से स्प्रिंग का विस्तार होता है। न्यूनतम वर्ग पद्धति से उपयुक्त स्थिर बल द्वारा प्राप्त करने के बाद हम हुक के नियम से विस्तार का पूर्वानुमान करते हैं।

अनिश्चितता मात्रा का ठहराव (Uncertainty quantification)

इकाई भार के साथ न्यूनतम वर्ग पद्धतियों की गणना में या रेखीय प्रतिगमन में, jth पैरामीटर पर विचरण, लक्षित , सामान्य रूप से अनुमान लगाया जाता है।

जहां वास्तविक त्रुटि प्रसरण σ2 को एक अनुमान से परिवर्तित कर दिया जाता है, न्यूनतम किए गए ची-वर्ग आँकड़ा, वर्गों के अवशिष्ट योग (उद्देश्य फलन) के न्यूनतम मान के आधार पर, S हर, n − m, स्वतंत्रता की सांख्यिकीय कोटि है। सामान्यीकरण के लिए स्वतंत्रता की प्रभावी अंश देखें।[12] C उपयुक्त आव्यूह है (अर्थात, व्युत्क्रम सहचरता आव्यूह)।

सांख्यिकीय परीक्षण (Statistical testing)

यदि प्रायिकता का संभाव्यता वितरण ज्ञात है या एक स्पर्शोन्मुख सन्निकटन किया जाता है, तो दृढ सीमाएँ पाई जा सकती हैं। इसी तरह अवशिष्टों पर सांख्यिकीय परीक्षण किए जा सकते हैं। यदि अवशिष्टों का संभाव्यता वितरण ज्ञात या अधिकृत किया गया हो। तब हम आश्रित चरों के किसी भी रैखिक संयोजन के प्रायिकता वितरण को प्राप्त कर सकते हैं। यदि प्रायोगिक त्रुटियों का संभाव्यता वितरण ज्ञात या कल्पित है। यह मानते हुए अनुमान लगाना आसान है कि त्रुटियाँ एक सामान्य वितरण का अनुसरण करती हैं, फलस्वरूप इसका अर्थ यह है कि पैरामीटर अनुमान और अवशिष्ट भी सामान्य रूप से स्वतंत्र चर के मानों पर सशर्त वितरित किए जाएंगे।[12]

सांख्यिकीय रूप से परिणामों का परीक्षण करने के लिए प्रायोगिक त्रुटियों की प्रकृति के बारे में अनुमान लगाना आवश्यक है। एक सामान्य धारणा यह है कि त्रुटियां सामान्य वितरण से संबंधित हैं। केंद्रीय सीमा प्रमेय इस विचार का समर्थन करता है कि यह कई स्थितियों में एक अच्छा सन्निकटन है।

  • गॉस-मार्कोव प्रमेय एक रेखीय प्रारूप में जिसमें त्रुटियों में स्वतंत्र चर पर शून्य सशर्त मान अपेक्षित, असंबद्ध हैं और भिन्नताएं समान हैं, टिप्पणियों के किसी भी रैखिक संयोजन का सबसे अच्छा रैखिक निष्पक्ष अनुमानक इसका सबसे न्यूनतम वर्ग अनुमानक है। सर्वोत्तम का अर्थ है कि प्रायिकता के न्यूनतम वर्ग आकलनकर्ताओं का न्यूनतम वितरण है। समान वितरण की धारणा तब मान्य होती है, जब सभी त्रुटियाँ समान वितरण से संबंधित हों।
  • यदि त्रुटियां एक सामान्य वितरण से संबंधित हैं, तो न्यूनतम वर्ग पद्धति अनुमानक एक रेखीय प्रारूप में अधिकतम संभावना अनुमानक भी होते हैं।

हालाँकि, मान लीजिए कि त्रुटियाँ सामान्य रूप से वितरित नहीं हैं। उस स्थिति में, एक केंद्रीय सीमा प्रमेय का अर्थ प्रायः यह होता है कि पैरामीटर अनुमान लगभग सामान्य रूप से तब तक वितरित किए जाएंगे जब तक कि प्रारूप यथोचित रूप से बड़ा हो। इस कारण से, यह महत्वपूर्ण विशेषता दी गई है कि त्रुटि माध्य स्वतंत्र चर से स्वतंत्र है, प्रतिगमन विश्लेषण में त्रुटि शब्द का वितरण एक महत्वपूर्ण वितरण नहीं है। विशेष रूप से यह अधिक महत्वपूर्ण नहीं है कि त्रुटि शब्द सामान्य वितरण का पालन करता है या नहीं।

न्यूनतम वर्ग भारित वर्ग (Weighted least squares)

विषम विचालिता का फैनिंग आउट प्रभाव

भारित न्यूनतम वर्ग कहे जाने वाले सामान्यीकृत न्यूनतम वर्गों का एक विशेष स्थिति तब होती है जब Ω (अवशिष्टों का सहसंबंध आव्यूह) की सभी संवृत विकर्ण प्रविष्टियाँ शून्य होती हैं। टिप्पणियों के प्रेक्षण (सहचरता आव्यूह विकर्ण के साथ) अभी भी असमान विषम विचालिता के हो सकते हैं। सरल शब्दों में, विषम विचालिता तब होती है जब का प्रेक्षण के मान पर निर्भर करता है, जो अवशिष्ट भूखण्ड(प्लॉट) को फैनिंग आउट बनाने का कारण बनता है। बड़े मानों की ओर प्रभाव जैसा कि दाईं ओर अवशिष्ट प्लॉट में देखा गया है। दूसरी ओर समरूपता मान रही है कि और का प्रेक्षण बराबर है।[10]

प्रमुख घटकों से संबंध

बिंदुओं के एक समुच्चय के माध्य के बारे में पहला प्रमुख घटक उस रेखा द्वारा दर्शाया जा सकता है, जो आँकड़ा बिंदुओं के सबसे निकट पहुंचती है। जैसा कि निकटतम दृष्टिकोण की वर्ग दूरी द्वारा मापा जाता है, अर्थात रेखा के लंबवत। इसके विपरीत, रैखिक न्यूनतम वर्ग केवल दिशा में दूरी को न्यूनतम करने का प्रयास करते हैं। इस प्रकार, हालांकि दोनों एक समान त्रुटि मीटर का उपयोग करते हैं, रैखिक न्यूनतम वर्ग एक ऐसी विधि है जो आँकड़ा के एक आयाम को अधिमानतः व्यवहार करती है, जबकि PCA सभी आयामों को समान रूप से मानता है।

सिद्धांत को मापने के संबंध

उल्लेखनीय सांख्यिकीविद्(statistician) सारा वैन डी गीर ने अनुभवजन्य प्रक्रिया सिद्धांत और वैपनिक-चेर्वोनेंकिस आयाम का उपयोग यह सिद्ध करने के लिए किया कि न्यूनतम वर्ग पद्धति अनुमानक को वर्ग-पूर्ण कार्यों के स्थान पर एक माप के रूप में व्याख्या किया जा सकता है।[15]

नियमितीकरण (Regularization)


तिखोनोव नियमितीकरण

कुछ संदर्भों में न्यूनतम वर्ग पद्धतियों के समाधान का एक नियमितीकरण (मशीन लर्निंग) संस्करण बेहतर हो सकता है। टिकोनोव नियमितीकरण (या रिज प्रतिगमन) एक बाधा जोड़ता है , L2 मानक पैरामीटर सदिश का मानदंड, न्यूनतम वर्ग पद्धतियों के निर्माण के लिए दिए गए मान से अधिक नहीं है, जिससे विवश न्यूनीकरण समस्या होती है। यह स्वैच्छिक न्यूनीकरण समस्या के समतुल्य है, जहां उद्देश्य फलन वर्गों का अवशिष्ट योग और अर्थदंड(penalty) है। तथा एक ट्यूनिंग पैरामीटर है। यह विवश न्यूनीकरण समस्या का लैग्रेंज गुणक रूप है।[16]

बायेसियन आंकड़ों के संदर्भ में, यह पैरामीटर सदिश पर सामान्य रूप से वितरित पूर्व वितरण को शून्य-माध्य रखने के बराबर होता है।

लासो विधि

न्यूनतम वर्ग पद्धतियों का एक वैकल्पिक नियमितीकरण (मशीन लर्निंग) संस्करण लासो (न्यूनतम वर्ग पूर्ण संकुचन और चयन संचालक है, जो बाधा का उपयोग करता है , L1-मानदंड पैरामीटर सदिश का मानदंड किसी दिए गए मान से अधिक नहीं है।[17][18][19] लैग्रेंज प्रवर्धकों का उपयोग करके ऊपर की तरह दिखाया जा सकता है कि यह जोड़े जाने के साथ न्यूनतम वर्ग पद्धति के दंड के एक अनियंत्रित न्यूनीकरण के बराबर है।[dubious ] बायेसियन सांख्यिकी संदर्भ में यह पैरामीटर सदिश पर शून्य-माध्य लाप्लास वितरण, पूर्व वितरण रखने के बराबर है।[20] अनुकूलन समस्या को द्विघात प्रोग्रामिंग या अधिक सामान्य उत्तल अनुकूलन विधियों के साथ-साथ न्यूनतम वर्ग कोण प्रतिगमन कलन विधि जैसे विशिष्ट कलन विधि द्वारा हल किया जा सकता है।

लास्सो और कंटक(ridge) प्रतिगमन के बीच मुख्य अंतर यह है कि कंटक प्रतिगमन में, जैसे ही दण्ड(penalty) बढ़ाई जाती है, जबकि अभी भी गैर-शून्य शेष है, जबकि लासो में, जुर्माना बढ़ाने से अधिक से अधिक पैरामीटर शून्य हो जाएंगे। यह कंटक प्रतिगमन पर लैस्सो का एक फायदा है, क्योंकि शून्य पर उग्र पैरामीटर प्रतिगमन से सुविधाओं को अचयनित करता है। इस प्रकार, लैस्सो स्वचालित रूप से अधिक प्रासंगिक विशेषताओं का चयन करता है और दूसरों को छोड़ देता है, जबकि रिज प्रतिगमन कभी भी किसी भी विशेषता को पूरी तरह से नहीं छोड़ता है। कुछ भविष्य चयन तकनीकों को लैस्सो के आधार पर विकसित किया गया है, जिसमें बोलासो(Bolasso) भी सम्मिलित है, जो प्रारूप को बूटस्ट्रैप करता है,[21] और फीलेक्ट जो सभी सुविधाओं को प्राप्त करने के लिए के विभिन्न मानों के अनुरूप प्रतिगमन गुणांक का विश्लेषण करता है।[22]

L1-नियमित सूत्रीकरण कुछ संदर्भों में उपयोगी है। क्योंकि इसकी प्रवृत्ति उन समाधानों को पसंद करने की है। जहां अधिक पैरामीटर शून्य हैं, जो समाधान देता है कि न्यूनतम चर पर निर्भर करता है।[17] इस कारण से लास्सो और इसके प्रकार संपीडित संवेदन के क्षेत्र के लिए मौलिक हैं। इस दृष्टिकोण का एक विस्तार लोचदार शुद्ध नियमितीकरण है।

यह भी देखें

संदर्भ

  1. Charnes, A.; Frome, E. L.; Yu, P. L. (1976). "घातीय परिवार में सामान्यीकृत न्यूनतम वर्गों और अधिकतम संभावना अनुमानों की समानता". Journal of the American Statistical Association. 71 (353): 169–171. doi:10.1080/01621459.1976.10481508.
  2. Mansfield Merriman, "A List of Writings Relating to the Method of Least Squares"
  3. Bretscher, Otto (1995). अनुप्रयोगों के साथ रेखीय बीजगणित (3rd ed.). Upper Saddle River, NJ: Prentice Hall.
  4. Stigler, Stephen M. (1981). "गॉस और कम से कम वर्गों का आविष्कार". Ann. Stat. 9 (3): 465–474. doi:10.1214/aos/1176345451.
  5. Britannica, "Least squares method"
  6. Studies in the History of Probability and Statistics. XXIX: The Discovery of the Method of Least Squares R. L. Plackett
  7. Jump up to: 7.0 7.1 Stigler, Stephen M. (1986). सांख्यिकी का इतिहास: 1900 से पहले अनिश्चितता का मापन. Cambridge, MA: Belknap Press of Harvard University Press. ISBN 978-0-674-40340-6.
  8. Legendre, Adrien-Marie (1805), Nouvelles méthodes pour la détermination des orbites des comètes [New Methods for the Determination of the Orbits of Comets] (in français), Paris: F. Didot, hdl:2027/nyp.33433069112559
  9. Aldrich, J. (1998). "डूइंग लीस्ट स्क्वायर्स: पर्सपेक्टिव्स फ्रॉम गॉस एंड यूल". International Statistical Review. 66 (1): 61–81. doi:10.1111/j.1751-5823.1998.tb00406.x. S2CID 121471194.
  10. Jump up to: 10.0 10.1 10.2 10.3 संभाव्यता और सांख्यिकी का एक आधुनिक परिचय: क्यों और कैसे समझना. Dekking, Michel, 1946-. London: Springer. 2005. ISBN 978-1-85233-896-1. OCLC 262680588.{{cite book}}: CS1 maint: others (link)
  11. For a good introduction to error-in-variables, please see Fuller, W. A. (1987). Measurement Error Models. John Wiley & Sons. ISBN 978-0-471-86187-4.
  12. Jump up to: 12.0 12.1 12.2 12.3 12.4 12.5 12.6 12.7 Williams, Jeffrey H. (Jeffrey Huw), 1956- (November 2016). मात्रात्मक माप: संख्याओं का अत्याचार. Morgan & Claypool Publishers,, Institute of Physics (Great Britain). San Rafael [California] (40 Oak Drive, San Rafael, CA, 94903, USA). ISBN 978-1-68174-433-9. OCLC 962422324.{{cite book}}: CS1 maint: location (link) CS1 maint: location missing publisher (link) CS1 maint: multiple names: authors list (link)
  13. Jump up to: 13.0 13.1 Rencher, Alvin C.; Christensen, William F. (2012-08-15). बहुभिन्नरूपी विश्लेषण के तरीके (in English). John Wiley & Sons. p. 155. ISBN 978-1-118-39167-9.
  14. Gere, James M. (2013). सामग्री के यांत्रिकी. Goodno, Barry J. (8th ed.). Stamford, Conn.: Cengage Learning. ISBN 978-1-111-57773-5. OCLC 741541348.
  15. van de Geer, Sara (June 1987). "कम से कम वर्ग अनुमान के लिए एक नया दृष्टिकोण, अनुप्रयोगों के साथ". Annals of Statistics. 15 (2): 587–602. doi:10.1214/aos/1176350362. S2CID 123088844.
  16. van Wieringen, Wessel N. (2021). "रिज प्रतिगमन पर व्याख्यान नोट्स" (PDF). arXiv:1509.09169. {{cite journal}}: Cite journal requires |journal= (help)
  17. Jump up to: 17.0 17.1 Tibshirani, R. (1996). "कमंद के माध्यम से प्रतिगमन संकोचन और चयन". Journal of the Royal Statistical Society, Series B. 58 (1): 267–288. JSTOR 2346178.
  18. Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome H. (2009). सांख्यिकीय सबक के तत्व (second ed.). Springer-Verlag. ISBN 978-0-387-84858-7. Archived from the original on 2009-11-10.
  19. Bühlmann, Peter; van de Geer, Sara (2011). उच्च-आयामी डेटा के लिए सांख्यिकी: विधियाँ, सिद्धांत और अनुप्रयोग. Springer. ISBN 9783642201929.
  20. Park, Trevor; Casella, George (2008). "द बायेसियन लासो". Journal of the American Statistical Association. 103 (482): 681–686. doi:10.1198/016214508000000337. S2CID 11797924.
  21. Bach, Francis R (2008). "बोलासो: बूटस्ट्रैप के माध्यम से लगातार कमंद का मॉडल". Proceedings of the 25th International Conference on Machine Learning. Icml '08: 33–40. arXiv:0804.1302. Bibcode:2008arXiv0804.1302B. doi:10.1145/1390156.1390161. ISBN 9781605582054. S2CID 609778.
  22. Zare, Habil (2013). "लिंफोमा निदान के लिए आवेदन के साथ लास्सो के संयोजन विश्लेषण के आधार पर सुविधाओं की स्कोरिंग प्रासंगिकता". BMC Genomics. 14 (Suppl 1): S14. doi:10.1186/1471-2164-14-S1-S14. PMC 3549810. PMID 23369194.


अग्रिम पठन


इस पेज में लापता आंतरिक लिंक की सूची

  • अतिनिर्धारित प्रणाली
  • अवशिष्ट (सांख्यिकी)
  • अधिकतम संभाव्यता
  • सामान्य न्यूनतम चौकोर
  • बंद रूप समाधान
  • अरेखीय न्यूनतम वर्ग पद्धति
  • एरर-इन-वैरिएबल प्रारूप
  • फिशर की जानकारी
  • क्षणों की विधि (सांख्यिकी)
  • भूमंडल नापने का शास्र
  • डिस्कवरी की उम्र
  • शनि ग्रह
  • संभावना
  • न्यूनतम से न्यूनतम पूर्ण विचलन
  • अंकगणित औसत
  • संभावित गहराई
  • सेरेस (बौना ग्रह)
  • निर्भर चर
  • आँकड़ों में त्रुटियां और अवशेष
  • चुकता अवशेषों का योग
  • रैखिक संयोजन
  • परिमित मतभेद
  • वर्गों का अवशिष्ट योग
  • न्यूनतम ची-स्क्वायर आँकड़ा
  • सहप्रसरण आव्यूह
  • आत्मविश्वास की सीमा
  • अपेक्षित मान
  • असहसंबद्ध
  • झगड़ा
  • समलैंगिकता
  • प्रमुख कंपोनेंट विश्लेषण
  • उपाय (गणित)
  • तिखोनोव नियमितीकरण
  • बायेसियन सांख्यिकी
  • न्यूनतम कोण प्रतिगमन
  • संकुचित संवेदन

बाहरी संबंध



जीएल: मिनिमोस कैडराडोस लाइनैस