आउट-ऑफ-बैग त्रुटि: Difference between revisions

From Vigyanwiki
(TEXT)
(TEXT)
Line 1: Line 1:
{{Machine learning bar}}
{{Machine learning bar}}


आउट-ऑफ-बैग (ओओबी) त्रुटि, जिसे आउट-ऑफ-बैग अनुमान भी कहा जाता है, यादृच्छिक जंगलों,[[ बूटस्ट्रैप एकत्रीकरण | बूटस्ट्रैप निर्णय वृक्ष]] और बूटस्ट्रैप समुच्चयन (बैगिंग) का उपयोग करने वाले अन्य[[ यंत्र अधिगम ]]मॉडल की [[भविष्यवाणी त्रुटि]] को मापने की एक विधि है। बैगिंग मॉडल से सीखने के लिए प्रशिक्षण प्रतिदर्श बनाने के लिए प्रतिस्थापन के साथ उपप्रतिचयन का उपयोग करता है। OOB त्रुटि प्रत्येक प्रशिक्षण प्रतिदर्श {{mvar|x<sub>i</sub>}} पर माध्य भविष्यवाणी त्रुटि है, केवल उन वृक्षो का उपयोग करते हुए जिनके बूटस्ट्रैप प्रतिदर्श में {{mvar|x<sub>i</sub>}} नहीं था।<ref name="islr">{{cite book |first1=Gareth |last1=James |first2=Daniela |last2=Witten |first3=Trevor |last3=Hastie |first4=Robert |last4=Tibshirani |title=सांख्यिकीय सीखने का एक परिचय|publisher=Springer |year=2013 |url=http://www-bcf.usc.edu/~gareth/ISL/ |pages=316–321}}</ref>
आउट-ऑफ-बैग (ओओबी) त्रुटि, जिसे आउट-ऑफ-बैग अनुमान भी कहा जाता है, यादृच्छिकफ़ॉरेस्टों,[[ बूटस्ट्रैप एकत्रीकरण | बूटस्ट्रैप निर्णय वृक्ष]] और बूटस्ट्रैप समुच्चयन (बैगिंग) का उपयोग करने वाले अन्य[[ यंत्र अधिगम ]]मॉडल की [[भविष्यवाणी त्रुटि]] को मापने की एक विधि है। बैगिंग मॉडल से सीखने के लिए प्रशिक्षण प्रतिदर्श बनाने के लिए प्रतिस्थापन के साथ उपप्रतिचयन का उपयोग करता है। OOB त्रुटि प्रत्येक प्रशिक्षण प्रतिदर्श {{mvar|x<sub>i</sub>}} पर माध्य भविष्यवाणी त्रुटि है, केवल उन वृक्षो का उपयोग करते हुए जिनके बूटस्ट्रैप प्रतिदर्श में {{mvar|x<sub>i</sub>}} नहीं था।<ref name="islr">{{cite book |first1=Gareth |last1=James |first2=Daniela |last2=Witten |first3=Trevor |last3=Hastie |first4=Robert |last4=Tibshirani |title=सांख्यिकीय सीखने का एक परिचय|publisher=Springer |year=2013 |url=http://www-bcf.usc.edu/~gareth/ISL/ |pages=316–321}}</ref>


बूटस्ट्रैप एकत्रीकरण उन अवलोकनों पर भविष्यवाणियों का मूल्यांकन करके भविष्यवाणी प्रदर्शन सुधार के आउट-ऑफ-बैग अनुमान को परिभाषित करने की अनुमति देता है जो अगले आधार शिक्षार्थी के रचना में उपयोग नहीं किए गए थे।
बूटस्ट्रैप एकत्रीकरण उन अवलोकनों पर भविष्यवाणियों का मूल्यांकन करके भविष्यवाणी प्रदर्शन सुधार के आउट-ऑफ-बैग अनुमान को परिभाषित करने की अनुमति देता है जो अगले आधार शिक्षार्थी के रचना में उपयोग नहीं किए गए थे।
Line 8: Line 8:
जब बूटस्ट्रैप एकत्रीकरण किया जाता है, तो दो स्वतंत्र समुच्चय बनाए जाते हैं। एक समुच्चय, बूटस्ट्रैप प्रतिदर्श, प्रतिस्थापन के साथ प्रतिचयन द्वारा "इन-द-बैग" चयनित गया डेटा है। आउट-ऑफ़-बैग समुच्चय प्रतिचयन प्रक्रिया में नहीं चुना गया सभी डेटा है।
जब बूटस्ट्रैप एकत्रीकरण किया जाता है, तो दो स्वतंत्र समुच्चय बनाए जाते हैं। एक समुच्चय, बूटस्ट्रैप प्रतिदर्श, प्रतिस्थापन के साथ प्रतिचयन द्वारा "इन-द-बैग" चयनित गया डेटा है। आउट-ऑफ़-बैग समुच्चय प्रतिचयन प्रक्रिया में नहीं चुना गया सभी डेटा है।


जब यह प्रक्रिया दोहराई जाती है, जैसे कि यादृच्छिक फ़ॉरेस्ट बनाते समय, कई बूटस्ट्रैप प्रतिदर्श और OOB समुच्चय बनाए जाते हैं। OOB समुच्चय को एक डेटासमुच्चय में एकत्र किया जा सकता है, लेकिन प्रत्येक प्रतिदर्श को केवल उन पेड़ों के लिए आउट-ऑफ़-बैग माना जाता है जो इसे अपने बूटस्ट्रैप प्रतिदर्श में शामिल नहीं करते हैं। नीचे दी गई तस्वीर से पता चलता है कि प्रत्येक प्रतिदर्श के लिए डेटा को दो समूहों में विभाजित किया गया है।
जब यह प्रक्रिया दोहराई जाती है, जैसे कि यादृच्छिक फ़ॉरेस्ट बनाते समय, कई बूटस्ट्रैप प्रतिदर्श और OOB समुच्चय बनाए जाते हैं। OOB समुच्चय को एक डेटासमुच्चय में एकत्र किया जा सकता है, लेकिन प्रत्येक प्रतिदर्श को केवल उन वृक्षो के लिए आउट-ऑफ़-बैग माना जाता है जो इसे अपने बूटस्ट्रैप प्रतिदर्श में सम्मिलित नहीं करते हैं। नीचे दी गई तस्वीर से पता चलता है कि प्रत्येक प्रतिदर्श के लिए डेटा को दो समूहों में विभाजित किया गया है।
[[File:Sampling with replacement and out-of-bag dataset - medical context.jpg|center|thumb|752x752px|बैगिंग प्रक्रिया की कल्पना करना। प्रतिस्थापन के साथ मूल समुच्चय से 4 रोगियों का प्रतिदर्श लेना और आउट-ऑफ-बैग समुच्चय दिखाना। उस बैग के मॉडल को प्रशिक्षित करने के लिए केवल बूटस्ट्रैप प्रतिदर्श के रोगियों का उपयोग किया जाएगा।]]यह उदाहरण दिखाता है कि बीमारी के निदान के संदर्भ में बैगिंग का उपयोग कैसे किया जा सकता है। रोगियों का एक समुच्चय मूल डेटासमुच्चय है, लेकिन प्रत्येक मॉडल को केवल उसके बैग में रोगियों द्वारा प्रशिक्षित किया जाता है। प्रत्येक आउट-ऑफ-बैग समुच्चय में रोगियों का उपयोग उनके संबंधित मॉडलों का परीक्षण करने के लिए किया जा सकता है। परीक्षण इस बात पर विचार करेगा कि क्या मॉडल सटीक रूप से यह निर्धारित कर सकता है कि रोगी को बीमारी है या नहीं।
[[File:Sampling with replacement and out-of-bag dataset - medical context.jpg|center|thumb|752x752px|बैगिंग प्रक्रिया की कल्पना करना। प्रतिस्थापन के साथ मूल समुच्चय से 4 रोगियों का प्रतिदर्श लेना और आउट-ऑफ-बैग समुच्चय दिखाना। उस बैग के मॉडल को प्रशिक्षित करने के लिए केवल बूटस्ट्रैप प्रतिदर्श के रोगियों का उपयोग किया जाएगा।]]यह उदाहरण दिखाता है कि बीमारी के निदान के संदर्भ में बैगिंग का उपयोग कैसे किया जा सकता है। रोगियों का एक समुच्चय मूल डेटासमुच्चय है, लेकिन प्रत्येक मॉडल को केवल उसके बैग में रोगियों द्वारा प्रशिक्षित किया जाता है। प्रत्येक आउट-ऑफ-बैग समुच्चय में रोगियों का उपयोग उनके संबंधित मॉडलों का परीक्षण करने के लिए किया जा सकता है। परीक्षण इस बात पर विचार करेगा कि क्या मॉडल यथार्थ रूप से यह निर्धारित कर सकता है कि रोगी को बीमारी है या नहीं है।


== आउट-ऑफ़-बैग त्रुटि की गणना ==
== आउट-ऑफ़-बैग त्रुटि की गणना ==
Line 24: Line 24:


== सटीकता और संगति ==
== सटीकता और संगति ==
रैंडम फ़ॉरेस्ट के भीतर त्रुटि अनुमान के लिए अक्सर आउट-ऑफ़-बैग त्रुटि का उपयोग किया जाता है, लेकिन सिल्के जेनिट्ज़ा और रोमन हॉर्नंग द्वारा किए गए एक अध्ययन के निष्कर्ष के साथ, आउट-ऑफ़-बैग त्रुटि ने समुच्चयिंग में अधिक अनुमान दिखाया है जिसमें से समान संख्या में अवलोकन शामिल हैं सभी प्रतिक्रिया वर्ग (संतुलित प्रतिदर्श), छोटे प्रतिदर्श के आकार, बड़ी संख्या में पूर्वसूचक चर, भविष्यवक्ताओं के बीच छोटे सहसंबंध और कमजोर प्रभाव।<ref>{{Cite journal|last1=Janitza|first1=Silke|last2=Hornung|first2=Roman|date=2018-08-06|title=यादृच्छिक वन की आउट-ऑफ़-बैग त्रुटि की अधिकता पर|journal=PLOS ONE|language=en|volume=13|issue=8|pages=e0201904|doi=10.1371/journal.pone.0201904|pmid=30080866|pmc=6078316|issn=1932-6203|doi-access=free}}</ref>
रैंडम फ़ॉरेस्ट के भीतर त्रुटि अनुमान के लिए अक्सर आउट-ऑफ़-बैग त्रुटि का उपयोग किया जाता है, लेकिन सिल्के जेनिट्ज़ा और रोमन हॉर्नंग द्वारा किए गए एक अध्ययन के निष्कर्ष के साथ, आउट-ऑफ़-बैग त्रुटि ने समुच्चयिंग में अधिक अनुमान दिखाया है जिसमें से समान संख्या में अवलोकन सम्मिलित हैं सभी प्रतिक्रिया वर्ग (संतुलित प्रतिदर्श), छोटे प्रतिदर्श के आकार, बड़ी संख्या में पूर्वसूचक चर, भविष्यवक्ताओं के बीच छोटे सहसंबंध और कमजोर प्रभाव।<ref>{{Cite journal|last1=Janitza|first1=Silke|last2=Hornung|first2=Roman|date=2018-08-06|title=यादृच्छिक वन की आउट-ऑफ़-बैग त्रुटि की अधिकता पर|journal=PLOS ONE|language=en|volume=13|issue=8|pages=e0201904|doi=10.1371/journal.pone.0201904|pmid=30080866|pmc=6078316|issn=1932-6203|doi-access=free}}</ref>
== यह भी देखें ==
== यह भी देखें ==
* [[बूस्टिंग (मेटा-एल्गोरिदम)]]
* [[बूस्टिंग (मेटा-एल्गोरिदम)]]
Line 30: Line 30:
* [[बूटस्ट्रैपिंग (सांख्यिकी)]]
* [[बूटस्ट्रैपिंग (सांख्यिकी)]]
*[[अंतः वैधीकरण (सांख्यिकी)]]
*[[अंतः वैधीकरण (सांख्यिकी)]]
* [[यादृच्छिक जंगल]]
* [[यादृच्छिक जंगल|यादृच्छिकफ़ॉरेस्ट]]
* [[रैंडम सबस्पेस विधि|यादृच्छिक उप-स्थान विधि (विशेषता बैगिंग)]]
* [[रैंडम सबस्पेस विधि|यादृच्छिक उप-स्थान विधि (विशेषता बैगिंग)]]



Revision as of 15:10, 11 March 2023

आउट-ऑफ-बैग (ओओबी) त्रुटि, जिसे आउट-ऑफ-बैग अनुमान भी कहा जाता है, यादृच्छिकफ़ॉरेस्टों, बूटस्ट्रैप निर्णय वृक्ष और बूटस्ट्रैप समुच्चयन (बैगिंग) का उपयोग करने वाले अन्ययंत्र अधिगम मॉडल की भविष्यवाणी त्रुटि को मापने की एक विधि है। बैगिंग मॉडल से सीखने के लिए प्रशिक्षण प्रतिदर्श बनाने के लिए प्रतिस्थापन के साथ उपप्रतिचयन का उपयोग करता है। OOB त्रुटि प्रत्येक प्रशिक्षण प्रतिदर्श xi पर माध्य भविष्यवाणी त्रुटि है, केवल उन वृक्षो का उपयोग करते हुए जिनके बूटस्ट्रैप प्रतिदर्श में xi नहीं था।[1]

बूटस्ट्रैप एकत्रीकरण उन अवलोकनों पर भविष्यवाणियों का मूल्यांकन करके भविष्यवाणी प्रदर्शन सुधार के आउट-ऑफ-बैग अनुमान को परिभाषित करने की अनुमति देता है जो अगले आधार शिक्षार्थी के रचना में उपयोग नहीं किए गए थे।

आउट-ऑफ-बैग डेटासमुच्चय

जब बूटस्ट्रैप एकत्रीकरण किया जाता है, तो दो स्वतंत्र समुच्चय बनाए जाते हैं। एक समुच्चय, बूटस्ट्रैप प्रतिदर्श, प्रतिस्थापन के साथ प्रतिचयन द्वारा "इन-द-बैग" चयनित गया डेटा है। आउट-ऑफ़-बैग समुच्चय प्रतिचयन प्रक्रिया में नहीं चुना गया सभी डेटा है।

जब यह प्रक्रिया दोहराई जाती है, जैसे कि यादृच्छिक फ़ॉरेस्ट बनाते समय, कई बूटस्ट्रैप प्रतिदर्श और OOB समुच्चय बनाए जाते हैं। OOB समुच्चय को एक डेटासमुच्चय में एकत्र किया जा सकता है, लेकिन प्रत्येक प्रतिदर्श को केवल उन वृक्षो के लिए आउट-ऑफ़-बैग माना जाता है जो इसे अपने बूटस्ट्रैप प्रतिदर्श में सम्मिलित नहीं करते हैं। नीचे दी गई तस्वीर से पता चलता है कि प्रत्येक प्रतिदर्श के लिए डेटा को दो समूहों में विभाजित किया गया है।

बैगिंग प्रक्रिया की कल्पना करना। प्रतिस्थापन के साथ मूल समुच्चय से 4 रोगियों का प्रतिदर्श लेना और आउट-ऑफ-बैग समुच्चय दिखाना। उस बैग के मॉडल को प्रशिक्षित करने के लिए केवल बूटस्ट्रैप प्रतिदर्श के रोगियों का उपयोग किया जाएगा।

यह उदाहरण दिखाता है कि बीमारी के निदान के संदर्भ में बैगिंग का उपयोग कैसे किया जा सकता है। रोगियों का एक समुच्चय मूल डेटासमुच्चय है, लेकिन प्रत्येक मॉडल को केवल उसके बैग में रोगियों द्वारा प्रशिक्षित किया जाता है। प्रत्येक आउट-ऑफ-बैग समुच्चय में रोगियों का उपयोग उनके संबंधित मॉडलों का परीक्षण करने के लिए किया जा सकता है। परीक्षण इस बात पर विचार करेगा कि क्या मॉडल यथार्थ रूप से यह निर्धारित कर सकता है कि रोगी को बीमारी है या नहीं है।

आउट-ऑफ़-बैग त्रुटि की गणना

चूंकि मॉडल को प्रशिक्षित करने के लिए प्रत्येक आउट-ऑफ-बैग समुच्चय का उपयोग नहीं किया जाता है, यह मॉडल के प्रदर्शन के लिए एक अच्छा परीक्षण है। OOB त्रुटि की विशिष्ट गणना मॉडल के कार्यान्वयन पर निर्भर करती है, लेकिन एक सामान्य गणना इस प्रकार है।

  1. OOB उदाहरण द्वारा प्रशिक्षित नहीं किए गए सभी मॉडल (या यादृच्छिक वन के मामले में पेड़) खोजें।
  2. OOB उदाहरण के वास्तविक मूल्य की तुलना में OOB उदाहरण के लिए इन मॉडलों के परिणाम का बहुमत लें।
  3. OOB डेटासमुच्चय में सभी उदाहरणों के लिए OOB त्रुटि संकलित करें।
OOB त्रुटि का एक उदाहरण

बूटस्ट्रैप एकत्रीकरण प्रक्रिया को एक मॉडल की जरूरतों को पूरा करने के लिए अनुकूलित किया जा सकता है। एक सटीक मॉडल सुनिश्चित करने के लिए बूटस्ट्रैप प्रशिक्षण प्रतिदर्श आकार मूल समुच्चय के करीब होना चाहिए।[2] साथ ही, सही OOB त्रुटि का पता लगाने के लिए मॉडल (वन) के पुनरावृत्तियों (पेड़) की संख्या पर विचार किया जाना चाहिए। OOB त्रुटि कई पुनरावृत्तियों पर स्थिर हो जाएगी इसलिए उच्च संख्या में पुनरावृत्तियों के साथ प्रारंभ करना एक अच्छा विचार है।[3]

दाईं ओर दिए गए उदाहरण में दिखाया गया है, फ़ॉरेस्ट समुच्चय होने के बाद उपरोक्त विधि का उपयोग करके OOB त्रुटि पाई जा सकती है।

क्रॉस-सत्यापन की तुलना

आउट-ऑफ-बैग त्रुटि और क्रॉस-सत्यापन (सांख्यिकी) | क्रॉस-सत्यापन (सीवी) मशीन लर्निंग मॉडल के त्रुटि अनुमान को मापने के विभिन्न तरीके हैं। कई पुनरावृत्तियों पर, दो विधियों को एक समान त्रुटि अनुमान उत्पन्न करना चाहिए। यानी, एक बार OOB त्रुटि स्थिर हो जाने के बाद, यह क्रॉस-वैलिडेशन (सांख्यिकी) | क्रॉस-वैलिडेशन (विशेष रूप से लीव-वन-आउट क्रॉस-वैलिडेशन) त्रुटि में परिवर्तित हो जाएगी।[3] ओओबी विधि का लाभ यह है कि इसमें कम संगणना की आवश्यकता होती है और यह प्रशिक्षण के दौरान मॉडल का परीक्षण करने की अनुमति देता है।

सटीकता और संगति

रैंडम फ़ॉरेस्ट के भीतर त्रुटि अनुमान के लिए अक्सर आउट-ऑफ़-बैग त्रुटि का उपयोग किया जाता है, लेकिन सिल्के जेनिट्ज़ा और रोमन हॉर्नंग द्वारा किए गए एक अध्ययन के निष्कर्ष के साथ, आउट-ऑफ़-बैग त्रुटि ने समुच्चयिंग में अधिक अनुमान दिखाया है जिसमें से समान संख्या में अवलोकन सम्मिलित हैं सभी प्रतिक्रिया वर्ग (संतुलित प्रतिदर्श), छोटे प्रतिदर्श के आकार, बड़ी संख्या में पूर्वसूचक चर, भविष्यवक्ताओं के बीच छोटे सहसंबंध और कमजोर प्रभाव।[4]

यह भी देखें

संदर्भ

  1. James, Gareth; Witten, Daniela; Hastie, Trevor; Tibshirani, Robert (2013). सांख्यिकीय सीखने का एक परिचय. Springer. pp. 316–321.
  2. Ong, Desmond (2014). A primer to bootstrapping; and an overview of doBootstrap (PDF). pp. 2–4.
  3. 3.0 3.1 Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2008). सांख्यिकीय सबक के तत्व (PDF). Springer. pp. 592–593.
  4. Janitza, Silke; Hornung, Roman (2018-08-06). "यादृच्छिक वन की आउट-ऑफ़-बैग त्रुटि की अधिकता पर". PLOS ONE (in English). 13 (8): e0201904. doi:10.1371/journal.pone.0201904. ISSN 1932-6203. PMC 6078316. PMID 30080866.