आउट-ऑफ-बैग त्रुटि: Difference between revisions

From Vigyanwiki
(Created page with "{{Machine learning bar}} आउट-ऑफ-बैग (ओओबी) त्रुटि, जिसे आउट-ऑफ-बैग अनुमान भी कहा जात...")
 
No edit summary
 
(9 intermediate revisions by 5 users not shown)
Line 1: Line 1:
{{Machine learning bar}}
आउट-ऑफ-बैग (ओओबी) त्रुटि, जिसे आउट-ऑफ-बैग आकलित भी कहा जाता है, यादृच्छिक फारेस्ट,[[ बूटस्ट्रैप एकत्रीकरण | बूटस्ट्रैप निर्णय वृक्ष]] और बूटस्ट्रैप समुच्चयन (बैगिंग) का उपयोग करने वाले अन्य[[ यंत्र अधिगम ]]मॉडल की [[भविष्यवाणी त्रुटि|पूर्वानुमान त्रुटि]] को मापने की एक विधि है। बैगिंग मॉडल से सीखने के लिए प्रशिक्षण प्रतिदर्श बनाने के लिए प्रतिस्थापन के साथ उपप्रतिचयन का उपयोग किया जाता है। OOB त्रुटि प्रत्येक प्रशिक्षण प्रतिदर्श {{mvar|x<sub>i</sub>}} पर माध्य पूर्वानुमान त्रुटि है, केवल उन वृक्षो का उपयोग करते हुए जिनके बूटस्ट्रैप प्रतिदर्श में {{mvar|x<sub>i</sub>}} नहीं था।<ref name="islr">{{cite book |first1=Gareth |last1=James |first2=Daniela |last2=Witten |first3=Trevor |last3=Hastie |first4=Robert |last4=Tibshirani |title=सांख्यिकीय सीखने का एक परिचय|publisher=Springer |year=2013 |url=http://www-bcf.usc.edu/~gareth/ISL/ |pages=316–321}}</ref>


आउट-ऑफ-बैग (ओओबी) त्रुटि, जिसे आउट-ऑफ-बैग अनुमान भी कहा जाता है, [[ बूटस्ट्रैप एकत्रीकरण ]] (बैगिंग) का उपयोग करने वाले यादृच्छिक जंगलों, [[ग्रेडिएंट बूस्टिंग]] और अन्य [[ यंत्र अधिगम ]] मॉडल की [[भविष्यवाणी त्रुटि]] को मापने का एक तरीका है। बैगिंग मॉडल से सीखने के लिए प्रशिक्षण नमूने बनाने के लिए प्रतिस्थापन के साथ सबसैंपलिंग का उपयोग करता है। OOB त्रुटि प्रत्येक प्रशिक्षण नमूने पर माध्य भविष्यवाणी त्रुटि है {{mvar|x<sub>i</sub>}}, केवल उन पेड़ों का उपयोग करना जिनके पास नहीं था {{mvar|x<sub>i</sub>}} उनके बूटस्ट्रैप नमूने में।<ref name="islr">{{cite book |first1=Gareth |last1=James |first2=Daniela |last2=Witten |first3=Trevor |last3=Hastie |first4=Robert |last4=Tibshirani |title=सांख्यिकीय सीखने का एक परिचय|publisher=Springer |year=2013 |url=http://www-bcf.usc.edu/~gareth/ISL/ |pages=316–321}}</ref>
बूटस्ट्रैप एकत्रीकरण उन अवलोकनों पर पूर्वानुमान का मूल्यांकन करके पूर्वानुमान प्रदर्शन सुधार के आउट-ऑफ-बैग आकलित को परिभाषित करने की अनुमति देता है जो अगले आधार शिक्षार्थी के रचना में उपयोग नहीं किए गए थे।
बूटस्ट्रैप एकत्रीकरण उन अवलोकनों पर भविष्यवाणियों का मूल्यांकन करके भविष्यवाणी प्रदर्शन सुधार के आउट-ऑफ-बैग अनुमान को परिभाषित करने की अनुमति देता है जो अगले आधार शिक्षार्थी के निर्माण में उपयोग नहीं किए गए थे।


== आउट-ऑफ-बैग डेटासेट ==
== आउट-ऑफ-बैग डेटासमुच्चय ==
जब बूटस्ट्रैप एकत्रीकरण किया जाता है, तो दो स्वतंत्र सेट बनाए जाते हैं। एक सेट, बूटस्ट्रैप नमूना, वह डेटा है जिसे प्रतिस्थापन के साथ नमूनाकरण द्वारा इन-द-बैग में चुना जाता है। आउट-ऑफ़-बैग सेट नमूनाकरण प्रक्रिया में नहीं चुने गए सभी डेटा हैं।
जब बूटस्ट्रैप एकत्रीकरण किया जाता है, तो दो स्वतंत्र समुच्चय बनाए जाते हैं। एक समुच्चय, बूटस्ट्रैप प्रतिदर्श, प्रतिस्थापन के साथ प्रतिचयन द्वारा "इन-द-बैग" चयनित किया गया डेटा है। आउट-ऑफ़-बैग समुच्चय प्रतिचयन प्रक्रिया में नहीं चुने गए सभी डेटा है।


जब यह प्रक्रिया दोहराई जाती है, जैसे कि यादृच्छिक फ़ॉरेस्ट बनाते समय, कई बूटस्ट्रैप नमूने और OOB सेट बनाए जाते हैं। OOB सेट को एक डेटासेट में एकत्र किया जा सकता है, लेकिन प्रत्येक नमूने को केवल उन पेड़ों के लिए आउट-ऑफ़-बैग माना जाता है जो इसे अपने बूटस्ट्रैप नमूने में शामिल नहीं करते हैं। नीचे दी गई तस्वीर से पता चलता है कि प्रत्येक नमूने के लिए डेटा को दो समूहों में विभाजित किया गया है।
जब यह प्रक्रिया दोहराई जाती है, जैसे कि यादृच्छिक फारेस्ट बनाते समय, कई बूटस्ट्रैप प्रतिदर्श और OOB समुच्चय बनाए जाते हैं। OOB समुच्चय को एक डेटासमुच्चय में एकत्र किया जा सकता है, लेकिन प्रत्येक प्रतिदर्श को केवल उन वृक्षो के लिए आउट-ऑफ़-बैग माना जाता है जो इसे अपने बूटस्ट्रैप प्रतिदर्श में सम्मिलित नहीं करते हैं। नीचे दिए गए चित्र से पता चलता है कि प्रत्येक प्रतिदर्श के लिए डेटा को दो समूहों में विभाजित किया गया है।
[[File:Sampling with replacement and out-of-bag dataset - medical context.jpg|center|thumb|752x752px|बैगिंग प्रक्रिया की कल्पना करना। प्रतिस्थापन के साथ मूल सेट से 4 रोगियों का नमूना लेना और आउट-ऑफ-बैग सेट दिखाना। उस बैग के मॉडल को प्रशिक्षित करने के लिए केवल बूटस्ट्रैप नमूने के रोगियों का उपयोग किया जाएगा।]]यह उदाहरण दिखाता है कि बीमारी के निदान के संदर्भ में बैगिंग का उपयोग कैसे किया जा सकता है। रोगियों का एक सेट मूल डेटासेट है, लेकिन प्रत्येक मॉडल को केवल उसके बैग में रोगियों द्वारा प्रशिक्षित किया जाता है। प्रत्येक आउट-ऑफ-बैग सेट में रोगियों का उपयोग उनके संबंधित मॉडलों का परीक्षण करने के लिए किया जा सकता है। परीक्षण इस बात पर विचार करेगा कि क्या मॉडल सटीक रूप से यह निर्धारित कर सकता है कि रोगी को बीमारी है या नहीं।
[[File:Sampling with replacement and out-of-bag dataset - medical context.jpg|center|thumb|752x752px|बैगिंग प्रक्रिया की कल्पना करना। प्रतिस्थापन के साथ मूल समुच्चय से 4 रोगियों का प्रतिदर्श लेना और आउट-ऑफ-बैग समुच्चय दिखाना। उस बैग के मॉडल को प्रशिक्षित करने के लिए केवल बूटस्ट्रैप प्रतिदर्श के रोगियों का उपयोग किया जाएगा।]]यह उदाहरण दिखाता है कि बीमारी के निदान के संदर्भ में बैगिंग का उपयोग कैसे किया जा सकता है। रोगियों का एक समुच्चय मूल डेटासमुच्चय है, लेकिन प्रत्येक मॉडल को केवल उसके बैग में रोगियों द्वारा प्रशिक्षित किया जाता है। प्रत्येक आउट-ऑफ-बैग समुच्चय में रोगियों का उपयोग उनके संबंधित मॉडलों का परीक्षण करने के लिए किया जा सकता है। परीक्षण इस बात पर विचार करेगा कि क्या मॉडल यथार्थ रूप से यह निर्धारित कर सकता है कि रोगी को बीमारी है या नहीं है।


== आउट-ऑफ़-बैग त्रुटि की गणना ==
== आउट-ऑफ़-बैग त्रुटि की गणना ==
चूंकि मॉडल को प्रशिक्षित करने के लिए प्रत्येक आउट-ऑफ-बैग सेट का उपयोग नहीं किया जाता है, यह मॉडल के प्रदर्शन के लिए एक अच्छा परीक्षण है। OOB त्रुटि की विशिष्ट गणना मॉडल के कार्यान्वयन पर निर्भर करती है, लेकिन एक सामान्य गणना इस प्रकार है।
क्योंकि मॉडल को प्रशिक्षित करने के लिए प्रत्येक आउट-ऑफ-बैग समुच्चय का उपयोग नहीं किया जाता है, यह मॉडल के प्रदर्शन के लिए एक अच्छा परीक्षण है। OOB त्रुटि की विशिष्ट गणना मॉडल के कार्यान्वयन पर निर्भर करती है, लेकिन एक सामान्य गणना इस प्रकार है।


# OOB उदाहरण द्वारा प्रशिक्षित नहीं किए गए सभी मॉडल (या यादृच्छिक वन के मामले में पेड़) खोजें।
# OOB उदाहरण द्वारा प्रशिक्षित नहीं किए गए सभी मॉडल (या वृक्ष, एक यादृच्छिक फारेस्ट के प्रकरण में) खोजें।
# OOB उदाहरण के वास्तविक मूल्य की तुलना में OOB उदाहरण के लिए इन मॉडलों के परिणाम का बहुमत लें।
# OOB उदाहरण के वास्तविक मूल्य की तुलना में OOB उदाहरण के लिए इन मॉडलों के परिणाम का बहुमत लें।
# OOB डेटासेट में सभी उदाहरणों के लिए OOB त्रुटि संकलित करें।
# OOB डेटासमुच्चय में सभी उदाहरणों के लिए OOB त्रुटि संकलित करें।
[[File:OOB Error Example.png|thumb|OOB त्रुटि का एक उदाहरण]]बूटस्ट्रैप एकत्रीकरण प्रक्रिया को एक मॉडल की जरूरतों को पूरा करने के लिए अनुकूलित किया जा सकता है। एक सटीक मॉडल सुनिश्चित करने के लिए बूटस्ट्रैप प्रशिक्षण नमूना आकार मूल सेट के करीब होना चाहिए।<ref>{{Cite book|last=Ong|first=Desmond|url=https://github.com/desmond-ong/doBootstrap/blob/master/doBootstrapPrimer.pdf|title=A primer to bootstrapping; and an overview of doBootstrap|year=2014|pages=2–4}}</ref> साथ ही, सही OOB त्रुटि का पता लगाने के लिए मॉडल (वन) के पुनरावृत्तियों (पेड़) की संख्या पर विचार किया जाना चाहिए। OOB त्रुटि कई पुनरावृत्तियों पर स्थिर हो जाएगी इसलिए उच्च संख्या में पुनरावृत्तियों के साथ प्रारंभ करना एक अच्छा विचार है।<ref name=":0">{{Cite book|last1=Hastie|first1=Trevor|url=https://web.stanford.edu/~hastie/Papers/ESLII.pdf#page=611&zoom=auto|title=सांख्यिकीय सबक के तत्व|last2=Tibshirani|first2=Robert|last3=Friedman|first3=Jerome|publisher=[[Springer Publishing|Springer]]|year=2008|pages=592–593}}</ref>
[[File:OOB Error Example.png|thumb|OOB त्रुटि का एक उदाहरण]]बूटस्ट्रैप एकत्रीकरण प्रक्रिया को किसी मॉडल की आवश्यकताओं के अनुसार अनुकूलित किया जा सकता है। एक यथार्थ मॉडल सुनिश्चित करने के लिए बूटस्ट्रैप प्रशिक्षण प्रतिदर्श आकार मूल समुच्चय के पास होना चाहिए।<ref>{{Cite book|last=Ong|first=Desmond|url=https://github.com/desmond-ong/doBootstrap/blob/master/doBootstrapPrimer.pdf|title=A primer to bootstrapping; and an overview of doBootstrap|year=2014|pages=2–4}}</ref> साथ ही, सही OOB त्रुटि का पता लगाने के लिए मॉडल (फारेस्ट) के पुनरावृत्तियों (वृक्ष) की संख्या पर विचार किया जाना चाहिए। OOB त्रुटि कई पुनरावृत्तियों पर स्थिर हो जाएगी इसलिए उच्च संख्या में पुनरावृत्तियों के साथ प्रारंभ करना एक अच्छा विचार है।<ref name=":0">{{Cite book|last1=Hastie|first1=Trevor|url=https://web.stanford.edu/~hastie/Papers/ESLII.pdf#page=611&zoom=auto|title=सांख्यिकीय सबक के तत्व|last2=Tibshirani|first2=Robert|last3=Friedman|first3=Jerome|publisher=[[Springer Publishing|Springer]]|year=2008|pages=592–593}}</ref>
दाईं ओर दिए गए उदाहरण में दिखाया गया है, फ़ॉरेस्ट सेट होने के बाद उपरोक्त विधि का उपयोग करके OOB त्रुटि पाई जा सकती है।
दाईं ओर दिए गए उदाहरण में दिखाया गया है, फारेस्ट समुच्चय होने के बाद उपरोक्त विधि का उपयोग करके OOB त्रुटि पाई जा सकती है।
 
== क्रॉस-सत्यापन की तुलना ==
आउट-ऑफ-बैग त्रुटि और [[क्रॉस-सत्यापन (सांख्यिकी)]] | क्रॉस-सत्यापन (सीवी) मशीन लर्निंग मॉडल के त्रुटि अनुमान को मापने के विभिन्न तरीके हैं। कई पुनरावृत्तियों पर, दो विधियों को एक समान त्रुटि अनुमान उत्पन्न करना चाहिए। यानी, एक बार OOB त्रुटि स्थिर हो जाने के बाद, यह क्रॉस-वैलिडेशन (सांख्यिकी) | क्रॉस-वैलिडेशन (विशेष रूप से लीव-वन-आउट क्रॉस-वैलिडेशन) त्रुटि में परिवर्तित हो जाएगी।<ref name=":0" />  ओओबी विधि का लाभ यह है कि इसमें कम संगणना की आवश्यकता होती है और यह प्रशिक्षण के दौरान मॉडल का परीक्षण करने की अनुमति देता है।
 
== सटीकता और संगति ==
रैंडम फ़ॉरेस्ट के भीतर त्रुटि अनुमान के लिए अक्सर आउट-ऑफ़-बैग त्रुटि का उपयोग किया जाता है, लेकिन सिल्के जेनिट्ज़ा और रोमन हॉर्नंग द्वारा किए गए एक अध्ययन के निष्कर्ष के साथ, आउट-ऑफ़-बैग त्रुटि ने सेटिंग में अधिक अनुमान दिखाया है जिसमें से समान संख्या में अवलोकन शामिल हैं सभी प्रतिक्रिया वर्ग (संतुलित नमूने), छोटे नमूने के आकार, बड़ी संख्या में पूर्वसूचक चर, भविष्यवक्ताओं के बीच छोटे सहसंबंध और कमजोर प्रभाव।<ref>{{Cite journal|last1=Janitza|first1=Silke|last2=Hornung|first2=Roman|date=2018-08-06|title=यादृच्छिक वन की आउट-ऑफ़-बैग त्रुटि की अधिकता पर|journal=PLOS ONE|language=en|volume=13|issue=8|pages=e0201904|doi=10.1371/journal.pone.0201904|pmid=30080866|pmc=6078316|issn=1932-6203|doi-access=free}}</ref>


== अंतः वैधीकरण की तुलना ==
यंत्र अधिगम मॉडल के त्रुटि अनुमान को मापने के लिए आउट-ऑफ-बैग त्रुटि और अंतः वैधीकरण (सीवी) अलग-अलग विधि हैं। कई पुनरावृत्तियों पर, दो विधियों को एक समान त्रुटि अनुमान उत्पन्न करना चाहिए। अर्थात, एक बार OOB त्रुटि स्थिर हो जाने के बाद, यह अंतः वैधीकरण (विशेष रूप से लीव-वन-आउट अंतः वैधीकरण) त्रुटि में परिवर्तित हो जाएगी।<ref name=":0" /> OOB विधि का लाभ यह है कि इसमें कम संगणना की आवश्यकता होती है और यह प्रशिक्षण के समय मॉडल का परीक्षण करने की अनुमति देता है।


== शुद्धता और निरंतरता ==
आउट-ऑफ़-बैग त्रुटि का उपयोग प्रायः यादृच्छिक फारेस्ट के अन्तर्गत त्रुटि अनुमान के लिए किया जाता है, लेकिन सिल्के जेनिट्ज़ा और रोमन हॉर्नंग द्वारा किए गए एक अध्ययन के निष्कर्ष के साथ, आउट-ऑफ़-बैग त्रुटि ने स्थापन में अधिक आकलित लगाया है जिसमें सभी प्रतिक्रिया वर्गों (संतुलित प्रतिदर्श), छोटे प्रतिदर्श के आकार, बड़ी संख्या में पूर्वसूचक चर, प्राग्वक्ता के मध्य छोटे सहसंबंध और कमजोर प्रभाव सम्मिलित हैं।<ref>{{Cite journal|last1=Janitza|first1=Silke|last2=Hornung|first2=Roman|date=2018-08-06|title=यादृच्छिक वन की आउट-ऑफ़-बैग त्रुटि की अधिकता पर|journal=PLOS ONE|language=en|volume=13|issue=8|pages=e0201904|doi=10.1371/journal.pone.0201904|pmid=30080866|pmc=6078316|issn=1932-6203|doi-access=free}}</ref>
== यह भी देखें ==
== यह भी देखें ==
* [[बूस्टिंग (मेटा-एल्गोरिदम)]]
* [[बूस्टिंग (मेटा-एल्गोरिदम)]]
* बूटस्ट्रैप एकत्रीकरण
* [[बूटस्ट्रैप एकत्रीकरण]]
* [[बूटस्ट्रैपिंग (सांख्यिकी)]]
* [[बूटस्ट्रैपिंग (सांख्यिकी)]]
*क्रॉस-वैलिडेशन (सांख्यिकी)
*[[अंतः वैधीकरण (सांख्यिकी)]]
* बेतरतीब जंगल
* [[यादृच्छिक जंगल|यादृच्छिकफारेस्ट]]
* [[रैंडम सबस्पेस विधि]] (विशेषता बैगिंग)
* [[रैंडम सबस्पेस विधि|यादृच्छिक उप-स्थान विधि (विशेषता बैगिंग)]]


== संदर्भ ==
== संदर्भ ==
{{Reflist}}
{{Reflist}}
[[Category: सीखने को इकट्ठा करो]] [[Category: मशीन लर्निंग एल्गोरिदम]] [[Category: कम्प्यूटेशनल आँकड़े]]


[[Category: Machine Translated Page]]
[[Category:CS1 English-language sources (en)]]
[[Category:Created On 02/03/2023]]
[[Category:Created On 02/03/2023]]
[[Category:Machine Translated Page]]
[[Category:Pages with script errors]]
[[Category:Templates Vigyan Ready]]
[[Category:कम्प्यूटेशनल आँकड़े]]
[[Category:मशीन लर्निंग एल्गोरिदम]]
[[Category:सीखने को इकट्ठा करो]]

Latest revision as of 18:04, 15 March 2023

आउट-ऑफ-बैग (ओओबी) त्रुटि, जिसे आउट-ऑफ-बैग आकलित भी कहा जाता है, यादृच्छिक फारेस्ट, बूटस्ट्रैप निर्णय वृक्ष और बूटस्ट्रैप समुच्चयन (बैगिंग) का उपयोग करने वाले अन्ययंत्र अधिगम मॉडल की पूर्वानुमान त्रुटि को मापने की एक विधि है। बैगिंग मॉडल से सीखने के लिए प्रशिक्षण प्रतिदर्श बनाने के लिए प्रतिस्थापन के साथ उपप्रतिचयन का उपयोग किया जाता है। OOB त्रुटि प्रत्येक प्रशिक्षण प्रतिदर्श xi पर माध्य पूर्वानुमान त्रुटि है, केवल उन वृक्षो का उपयोग करते हुए जिनके बूटस्ट्रैप प्रतिदर्श में xi नहीं था।[1]

बूटस्ट्रैप एकत्रीकरण उन अवलोकनों पर पूर्वानुमान का मूल्यांकन करके पूर्वानुमान प्रदर्शन सुधार के आउट-ऑफ-बैग आकलित को परिभाषित करने की अनुमति देता है जो अगले आधार शिक्षार्थी के रचना में उपयोग नहीं किए गए थे।

आउट-ऑफ-बैग डेटासमुच्चय

जब बूटस्ट्रैप एकत्रीकरण किया जाता है, तो दो स्वतंत्र समुच्चय बनाए जाते हैं। एक समुच्चय, बूटस्ट्रैप प्रतिदर्श, प्रतिस्थापन के साथ प्रतिचयन द्वारा "इन-द-बैग" चयनित किया गया डेटा है। आउट-ऑफ़-बैग समुच्चय प्रतिचयन प्रक्रिया में नहीं चुने गए सभी डेटा है।

जब यह प्रक्रिया दोहराई जाती है, जैसे कि यादृच्छिक फारेस्ट बनाते समय, कई बूटस्ट्रैप प्रतिदर्श और OOB समुच्चय बनाए जाते हैं। OOB समुच्चय को एक डेटासमुच्चय में एकत्र किया जा सकता है, लेकिन प्रत्येक प्रतिदर्श को केवल उन वृक्षो के लिए आउट-ऑफ़-बैग माना जाता है जो इसे अपने बूटस्ट्रैप प्रतिदर्श में सम्मिलित नहीं करते हैं। नीचे दिए गए चित्र से पता चलता है कि प्रत्येक प्रतिदर्श के लिए डेटा को दो समूहों में विभाजित किया गया है।

बैगिंग प्रक्रिया की कल्पना करना। प्रतिस्थापन के साथ मूल समुच्चय से 4 रोगियों का प्रतिदर्श लेना और आउट-ऑफ-बैग समुच्चय दिखाना। उस बैग के मॉडल को प्रशिक्षित करने के लिए केवल बूटस्ट्रैप प्रतिदर्श के रोगियों का उपयोग किया जाएगा।

यह उदाहरण दिखाता है कि बीमारी के निदान के संदर्भ में बैगिंग का उपयोग कैसे किया जा सकता है। रोगियों का एक समुच्चय मूल डेटासमुच्चय है, लेकिन प्रत्येक मॉडल को केवल उसके बैग में रोगियों द्वारा प्रशिक्षित किया जाता है। प्रत्येक आउट-ऑफ-बैग समुच्चय में रोगियों का उपयोग उनके संबंधित मॉडलों का परीक्षण करने के लिए किया जा सकता है। परीक्षण इस बात पर विचार करेगा कि क्या मॉडल यथार्थ रूप से यह निर्धारित कर सकता है कि रोगी को बीमारी है या नहीं है।

आउट-ऑफ़-बैग त्रुटि की गणना

क्योंकि मॉडल को प्रशिक्षित करने के लिए प्रत्येक आउट-ऑफ-बैग समुच्चय का उपयोग नहीं किया जाता है, यह मॉडल के प्रदर्शन के लिए एक अच्छा परीक्षण है। OOB त्रुटि की विशिष्ट गणना मॉडल के कार्यान्वयन पर निर्भर करती है, लेकिन एक सामान्य गणना इस प्रकार है।

  1. OOB उदाहरण द्वारा प्रशिक्षित नहीं किए गए सभी मॉडल (या वृक्ष, एक यादृच्छिक फारेस्ट के प्रकरण में) खोजें।
  2. OOB उदाहरण के वास्तविक मूल्य की तुलना में OOB उदाहरण के लिए इन मॉडलों के परिणाम का बहुमत लें।
  3. OOB डेटासमुच्चय में सभी उदाहरणों के लिए OOB त्रुटि संकलित करें।
OOB त्रुटि का एक उदाहरण

बूटस्ट्रैप एकत्रीकरण प्रक्रिया को किसी मॉडल की आवश्यकताओं के अनुसार अनुकूलित किया जा सकता है। एक यथार्थ मॉडल सुनिश्चित करने के लिए बूटस्ट्रैप प्रशिक्षण प्रतिदर्श आकार मूल समुच्चय के पास होना चाहिए।[2] साथ ही, सही OOB त्रुटि का पता लगाने के लिए मॉडल (फारेस्ट) के पुनरावृत्तियों (वृक्ष) की संख्या पर विचार किया जाना चाहिए। OOB त्रुटि कई पुनरावृत्तियों पर स्थिर हो जाएगी इसलिए उच्च संख्या में पुनरावृत्तियों के साथ प्रारंभ करना एक अच्छा विचार है।[3]

दाईं ओर दिए गए उदाहरण में दिखाया गया है, फारेस्ट समुच्चय होने के बाद उपरोक्त विधि का उपयोग करके OOB त्रुटि पाई जा सकती है।

अंतः वैधीकरण की तुलना

यंत्र अधिगम मॉडल के त्रुटि अनुमान को मापने के लिए आउट-ऑफ-बैग त्रुटि और अंतः वैधीकरण (सीवी) अलग-अलग विधि हैं। कई पुनरावृत्तियों पर, दो विधियों को एक समान त्रुटि अनुमान उत्पन्न करना चाहिए। अर्थात, एक बार OOB त्रुटि स्थिर हो जाने के बाद, यह अंतः वैधीकरण (विशेष रूप से लीव-वन-आउट अंतः वैधीकरण) त्रुटि में परिवर्तित हो जाएगी।[3] OOB विधि का लाभ यह है कि इसमें कम संगणना की आवश्यकता होती है और यह प्रशिक्षण के समय मॉडल का परीक्षण करने की अनुमति देता है।

शुद्धता और निरंतरता

आउट-ऑफ़-बैग त्रुटि का उपयोग प्रायः यादृच्छिक फारेस्ट के अन्तर्गत त्रुटि अनुमान के लिए किया जाता है, लेकिन सिल्के जेनिट्ज़ा और रोमन हॉर्नंग द्वारा किए गए एक अध्ययन के निष्कर्ष के साथ, आउट-ऑफ़-बैग त्रुटि ने स्थापन में अधिक आकलित लगाया है जिसमें सभी प्रतिक्रिया वर्गों (संतुलित प्रतिदर्श), छोटे प्रतिदर्श के आकार, बड़ी संख्या में पूर्वसूचक चर, प्राग्वक्ता के मध्य छोटे सहसंबंध और कमजोर प्रभाव सम्मिलित हैं।[4]

यह भी देखें

संदर्भ

  1. James, Gareth; Witten, Daniela; Hastie, Trevor; Tibshirani, Robert (2013). सांख्यिकीय सीखने का एक परिचय. Springer. pp. 316–321.
  2. Ong, Desmond (2014). A primer to bootstrapping; and an overview of doBootstrap (PDF). pp. 2–4.
  3. 3.0 3.1 Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2008). सांख्यिकीय सबक के तत्व (PDF). Springer. pp. 592–593.
  4. Janitza, Silke; Hornung, Roman (2018-08-06). "यादृच्छिक वन की आउट-ऑफ़-बैग त्रुटि की अधिकता पर". PLOS ONE (in English). 13 (8): e0201904. doi:10.1371/journal.pone.0201904. ISSN 1932-6203. PMC 6078316. PMID 30080866.