आउट-ऑफ-बैग त्रुटि: Difference between revisions
(TEXT) |
(TEXT) |
||
Line 1: | Line 1: | ||
{{Machine learning bar}} | {{Machine learning bar}} | ||
आउट-ऑफ-बैग (ओओबी) त्रुटि, जिसे आउट-ऑफ-बैग अनुमान भी कहा जाता है, | आउट-ऑफ-बैग (ओओबी) त्रुटि, जिसे आउट-ऑफ-बैग अनुमान भी कहा जाता है, यादृच्छिकफ़ॉरेस्टों,[[ बूटस्ट्रैप एकत्रीकरण | बूटस्ट्रैप निर्णय वृक्ष]] और बूटस्ट्रैप समुच्चयन (बैगिंग) का उपयोग करने वाले अन्य[[ यंत्र अधिगम ]]मॉडल की [[भविष्यवाणी त्रुटि]] को मापने की एक विधि है। बैगिंग मॉडल से सीखने के लिए प्रशिक्षण प्रतिदर्श बनाने के लिए प्रतिस्थापन के साथ उपप्रतिचयन का उपयोग करता है। OOB त्रुटि प्रत्येक प्रशिक्षण प्रतिदर्श {{mvar|x<sub>i</sub>}} पर माध्य भविष्यवाणी त्रुटि है, केवल उन वृक्षो का उपयोग करते हुए जिनके बूटस्ट्रैप प्रतिदर्श में {{mvar|x<sub>i</sub>}} नहीं था।<ref name="islr">{{cite book |first1=Gareth |last1=James |first2=Daniela |last2=Witten |first3=Trevor |last3=Hastie |first4=Robert |last4=Tibshirani |title=सांख्यिकीय सीखने का एक परिचय|publisher=Springer |year=2013 |url=http://www-bcf.usc.edu/~gareth/ISL/ |pages=316–321}}</ref> | ||
बूटस्ट्रैप एकत्रीकरण उन अवलोकनों पर भविष्यवाणियों का मूल्यांकन करके भविष्यवाणी प्रदर्शन सुधार के आउट-ऑफ-बैग अनुमान को परिभाषित करने की अनुमति देता है जो अगले आधार शिक्षार्थी के रचना में उपयोग नहीं किए गए थे। | बूटस्ट्रैप एकत्रीकरण उन अवलोकनों पर भविष्यवाणियों का मूल्यांकन करके भविष्यवाणी प्रदर्शन सुधार के आउट-ऑफ-बैग अनुमान को परिभाषित करने की अनुमति देता है जो अगले आधार शिक्षार्थी के रचना में उपयोग नहीं किए गए थे। | ||
Line 8: | Line 8: | ||
जब बूटस्ट्रैप एकत्रीकरण किया जाता है, तो दो स्वतंत्र समुच्चय बनाए जाते हैं। एक समुच्चय, बूटस्ट्रैप प्रतिदर्श, प्रतिस्थापन के साथ प्रतिचयन द्वारा "इन-द-बैग" चयनित गया डेटा है। आउट-ऑफ़-बैग समुच्चय प्रतिचयन प्रक्रिया में नहीं चुना गया सभी डेटा है। | जब बूटस्ट्रैप एकत्रीकरण किया जाता है, तो दो स्वतंत्र समुच्चय बनाए जाते हैं। एक समुच्चय, बूटस्ट्रैप प्रतिदर्श, प्रतिस्थापन के साथ प्रतिचयन द्वारा "इन-द-बैग" चयनित गया डेटा है। आउट-ऑफ़-बैग समुच्चय प्रतिचयन प्रक्रिया में नहीं चुना गया सभी डेटा है। | ||
जब यह प्रक्रिया दोहराई जाती है, जैसे कि यादृच्छिक फ़ॉरेस्ट बनाते समय, कई बूटस्ट्रैप प्रतिदर्श और OOB समुच्चय बनाए जाते हैं। OOB समुच्चय को एक डेटासमुच्चय में एकत्र किया जा सकता है, लेकिन प्रत्येक प्रतिदर्श को केवल उन | जब यह प्रक्रिया दोहराई जाती है, जैसे कि यादृच्छिक फ़ॉरेस्ट बनाते समय, कई बूटस्ट्रैप प्रतिदर्श और OOB समुच्चय बनाए जाते हैं। OOB समुच्चय को एक डेटासमुच्चय में एकत्र किया जा सकता है, लेकिन प्रत्येक प्रतिदर्श को केवल उन वृक्षो के लिए आउट-ऑफ़-बैग माना जाता है जो इसे अपने बूटस्ट्रैप प्रतिदर्श में सम्मिलित नहीं करते हैं। नीचे दी गई तस्वीर से पता चलता है कि प्रत्येक प्रतिदर्श के लिए डेटा को दो समूहों में विभाजित किया गया है। | ||
[[File:Sampling with replacement and out-of-bag dataset - medical context.jpg|center|thumb|752x752px|बैगिंग प्रक्रिया की कल्पना करना। प्रतिस्थापन के साथ मूल समुच्चय से 4 रोगियों का प्रतिदर्श लेना और आउट-ऑफ-बैग समुच्चय दिखाना। उस बैग के मॉडल को प्रशिक्षित करने के लिए केवल बूटस्ट्रैप प्रतिदर्श के रोगियों का उपयोग किया जाएगा।]]यह उदाहरण दिखाता है कि बीमारी के निदान के संदर्भ में बैगिंग का उपयोग कैसे किया जा सकता है। रोगियों का एक समुच्चय मूल डेटासमुच्चय है, लेकिन प्रत्येक मॉडल को केवल उसके बैग में रोगियों द्वारा प्रशिक्षित किया जाता है। प्रत्येक आउट-ऑफ-बैग समुच्चय में रोगियों का उपयोग उनके संबंधित मॉडलों का परीक्षण करने के लिए किया जा सकता है। परीक्षण इस बात पर विचार करेगा कि क्या मॉडल | [[File:Sampling with replacement and out-of-bag dataset - medical context.jpg|center|thumb|752x752px|बैगिंग प्रक्रिया की कल्पना करना। प्रतिस्थापन के साथ मूल समुच्चय से 4 रोगियों का प्रतिदर्श लेना और आउट-ऑफ-बैग समुच्चय दिखाना। उस बैग के मॉडल को प्रशिक्षित करने के लिए केवल बूटस्ट्रैप प्रतिदर्श के रोगियों का उपयोग किया जाएगा।]]यह उदाहरण दिखाता है कि बीमारी के निदान के संदर्भ में बैगिंग का उपयोग कैसे किया जा सकता है। रोगियों का एक समुच्चय मूल डेटासमुच्चय है, लेकिन प्रत्येक मॉडल को केवल उसके बैग में रोगियों द्वारा प्रशिक्षित किया जाता है। प्रत्येक आउट-ऑफ-बैग समुच्चय में रोगियों का उपयोग उनके संबंधित मॉडलों का परीक्षण करने के लिए किया जा सकता है। परीक्षण इस बात पर विचार करेगा कि क्या मॉडल यथार्थ रूप से यह निर्धारित कर सकता है कि रोगी को बीमारी है या नहीं है। | ||
== आउट-ऑफ़-बैग त्रुटि की गणना == | == आउट-ऑफ़-बैग त्रुटि की गणना == | ||
Line 24: | Line 24: | ||
== सटीकता और संगति == | == सटीकता और संगति == | ||
रैंडम फ़ॉरेस्ट के भीतर त्रुटि अनुमान के लिए अक्सर आउट-ऑफ़-बैग त्रुटि का उपयोग किया जाता है, लेकिन सिल्के जेनिट्ज़ा और रोमन हॉर्नंग द्वारा किए गए एक अध्ययन के निष्कर्ष के साथ, आउट-ऑफ़-बैग त्रुटि ने समुच्चयिंग में अधिक अनुमान दिखाया है जिसमें से समान संख्या में अवलोकन | रैंडम फ़ॉरेस्ट के भीतर त्रुटि अनुमान के लिए अक्सर आउट-ऑफ़-बैग त्रुटि का उपयोग किया जाता है, लेकिन सिल्के जेनिट्ज़ा और रोमन हॉर्नंग द्वारा किए गए एक अध्ययन के निष्कर्ष के साथ, आउट-ऑफ़-बैग त्रुटि ने समुच्चयिंग में अधिक अनुमान दिखाया है जिसमें से समान संख्या में अवलोकन सम्मिलित हैं सभी प्रतिक्रिया वर्ग (संतुलित प्रतिदर्श), छोटे प्रतिदर्श के आकार, बड़ी संख्या में पूर्वसूचक चर, भविष्यवक्ताओं के बीच छोटे सहसंबंध और कमजोर प्रभाव।<ref>{{Cite journal|last1=Janitza|first1=Silke|last2=Hornung|first2=Roman|date=2018-08-06|title=यादृच्छिक वन की आउट-ऑफ़-बैग त्रुटि की अधिकता पर|journal=PLOS ONE|language=en|volume=13|issue=8|pages=e0201904|doi=10.1371/journal.pone.0201904|pmid=30080866|pmc=6078316|issn=1932-6203|doi-access=free}}</ref> | ||
== यह भी देखें == | == यह भी देखें == | ||
* [[बूस्टिंग (मेटा-एल्गोरिदम)]] | * [[बूस्टिंग (मेटा-एल्गोरिदम)]] | ||
Line 30: | Line 30: | ||
* [[बूटस्ट्रैपिंग (सांख्यिकी)]] | * [[बूटस्ट्रैपिंग (सांख्यिकी)]] | ||
*[[अंतः वैधीकरण (सांख्यिकी)]] | *[[अंतः वैधीकरण (सांख्यिकी)]] | ||
* [[यादृच्छिक जंगल]] | * [[यादृच्छिक जंगल|यादृच्छिकफ़ॉरेस्ट]] | ||
* [[रैंडम सबस्पेस विधि|यादृच्छिक उप-स्थान विधि (विशेषता बैगिंग)]] | * [[रैंडम सबस्पेस विधि|यादृच्छिक उप-स्थान विधि (विशेषता बैगिंग)]] | ||
Revision as of 15:10, 11 March 2023
Part of a series on |
Machine learning and data mining |
---|
आउट-ऑफ-बैग (ओओबी) त्रुटि, जिसे आउट-ऑफ-बैग अनुमान भी कहा जाता है, यादृच्छिकफ़ॉरेस्टों, बूटस्ट्रैप निर्णय वृक्ष और बूटस्ट्रैप समुच्चयन (बैगिंग) का उपयोग करने वाले अन्ययंत्र अधिगम मॉडल की भविष्यवाणी त्रुटि को मापने की एक विधि है। बैगिंग मॉडल से सीखने के लिए प्रशिक्षण प्रतिदर्श बनाने के लिए प्रतिस्थापन के साथ उपप्रतिचयन का उपयोग करता है। OOB त्रुटि प्रत्येक प्रशिक्षण प्रतिदर्श xi पर माध्य भविष्यवाणी त्रुटि है, केवल उन वृक्षो का उपयोग करते हुए जिनके बूटस्ट्रैप प्रतिदर्श में xi नहीं था।[1]
बूटस्ट्रैप एकत्रीकरण उन अवलोकनों पर भविष्यवाणियों का मूल्यांकन करके भविष्यवाणी प्रदर्शन सुधार के आउट-ऑफ-बैग अनुमान को परिभाषित करने की अनुमति देता है जो अगले आधार शिक्षार्थी के रचना में उपयोग नहीं किए गए थे।
आउट-ऑफ-बैग डेटासमुच्चय
जब बूटस्ट्रैप एकत्रीकरण किया जाता है, तो दो स्वतंत्र समुच्चय बनाए जाते हैं। एक समुच्चय, बूटस्ट्रैप प्रतिदर्श, प्रतिस्थापन के साथ प्रतिचयन द्वारा "इन-द-बैग" चयनित गया डेटा है। आउट-ऑफ़-बैग समुच्चय प्रतिचयन प्रक्रिया में नहीं चुना गया सभी डेटा है।
जब यह प्रक्रिया दोहराई जाती है, जैसे कि यादृच्छिक फ़ॉरेस्ट बनाते समय, कई बूटस्ट्रैप प्रतिदर्श और OOB समुच्चय बनाए जाते हैं। OOB समुच्चय को एक डेटासमुच्चय में एकत्र किया जा सकता है, लेकिन प्रत्येक प्रतिदर्श को केवल उन वृक्षो के लिए आउट-ऑफ़-बैग माना जाता है जो इसे अपने बूटस्ट्रैप प्रतिदर्श में सम्मिलित नहीं करते हैं। नीचे दी गई तस्वीर से पता चलता है कि प्रत्येक प्रतिदर्श के लिए डेटा को दो समूहों में विभाजित किया गया है।
यह उदाहरण दिखाता है कि बीमारी के निदान के संदर्भ में बैगिंग का उपयोग कैसे किया जा सकता है। रोगियों का एक समुच्चय मूल डेटासमुच्चय है, लेकिन प्रत्येक मॉडल को केवल उसके बैग में रोगियों द्वारा प्रशिक्षित किया जाता है। प्रत्येक आउट-ऑफ-बैग समुच्चय में रोगियों का उपयोग उनके संबंधित मॉडलों का परीक्षण करने के लिए किया जा सकता है। परीक्षण इस बात पर विचार करेगा कि क्या मॉडल यथार्थ रूप से यह निर्धारित कर सकता है कि रोगी को बीमारी है या नहीं है।
आउट-ऑफ़-बैग त्रुटि की गणना
चूंकि मॉडल को प्रशिक्षित करने के लिए प्रत्येक आउट-ऑफ-बैग समुच्चय का उपयोग नहीं किया जाता है, यह मॉडल के प्रदर्शन के लिए एक अच्छा परीक्षण है। OOB त्रुटि की विशिष्ट गणना मॉडल के कार्यान्वयन पर निर्भर करती है, लेकिन एक सामान्य गणना इस प्रकार है।
- OOB उदाहरण द्वारा प्रशिक्षित नहीं किए गए सभी मॉडल (या यादृच्छिक वन के मामले में पेड़) खोजें।
- OOB उदाहरण के वास्तविक मूल्य की तुलना में OOB उदाहरण के लिए इन मॉडलों के परिणाम का बहुमत लें।
- OOB डेटासमुच्चय में सभी उदाहरणों के लिए OOB त्रुटि संकलित करें।
बूटस्ट्रैप एकत्रीकरण प्रक्रिया को एक मॉडल की जरूरतों को पूरा करने के लिए अनुकूलित किया जा सकता है। एक सटीक मॉडल सुनिश्चित करने के लिए बूटस्ट्रैप प्रशिक्षण प्रतिदर्श आकार मूल समुच्चय के करीब होना चाहिए।[2] साथ ही, सही OOB त्रुटि का पता लगाने के लिए मॉडल (वन) के पुनरावृत्तियों (पेड़) की संख्या पर विचार किया जाना चाहिए। OOB त्रुटि कई पुनरावृत्तियों पर स्थिर हो जाएगी इसलिए उच्च संख्या में पुनरावृत्तियों के साथ प्रारंभ करना एक अच्छा विचार है।[3]
दाईं ओर दिए गए उदाहरण में दिखाया गया है, फ़ॉरेस्ट समुच्चय होने के बाद उपरोक्त विधि का उपयोग करके OOB त्रुटि पाई जा सकती है।
क्रॉस-सत्यापन की तुलना
आउट-ऑफ-बैग त्रुटि और क्रॉस-सत्यापन (सांख्यिकी) | क्रॉस-सत्यापन (सीवी) मशीन लर्निंग मॉडल के त्रुटि अनुमान को मापने के विभिन्न तरीके हैं। कई पुनरावृत्तियों पर, दो विधियों को एक समान त्रुटि अनुमान उत्पन्न करना चाहिए। यानी, एक बार OOB त्रुटि स्थिर हो जाने के बाद, यह क्रॉस-वैलिडेशन (सांख्यिकी) | क्रॉस-वैलिडेशन (विशेष रूप से लीव-वन-आउट क्रॉस-वैलिडेशन) त्रुटि में परिवर्तित हो जाएगी।[3] ओओबी विधि का लाभ यह है कि इसमें कम संगणना की आवश्यकता होती है और यह प्रशिक्षण के दौरान मॉडल का परीक्षण करने की अनुमति देता है।
सटीकता और संगति
रैंडम फ़ॉरेस्ट के भीतर त्रुटि अनुमान के लिए अक्सर आउट-ऑफ़-बैग त्रुटि का उपयोग किया जाता है, लेकिन सिल्के जेनिट्ज़ा और रोमन हॉर्नंग द्वारा किए गए एक अध्ययन के निष्कर्ष के साथ, आउट-ऑफ़-बैग त्रुटि ने समुच्चयिंग में अधिक अनुमान दिखाया है जिसमें से समान संख्या में अवलोकन सम्मिलित हैं सभी प्रतिक्रिया वर्ग (संतुलित प्रतिदर्श), छोटे प्रतिदर्श के आकार, बड़ी संख्या में पूर्वसूचक चर, भविष्यवक्ताओं के बीच छोटे सहसंबंध और कमजोर प्रभाव।[4]
यह भी देखें
- बूस्टिंग (मेटा-एल्गोरिदम)
- बूटस्ट्रैप एकत्रीकरण
- बूटस्ट्रैपिंग (सांख्यिकी)
- अंतः वैधीकरण (सांख्यिकी)
- यादृच्छिकफ़ॉरेस्ट
- यादृच्छिक उप-स्थान विधि (विशेषता बैगिंग)
संदर्भ
- ↑ James, Gareth; Witten, Daniela; Hastie, Trevor; Tibshirani, Robert (2013). सांख्यिकीय सीखने का एक परिचय. Springer. pp. 316–321.
- ↑ Ong, Desmond (2014). A primer to bootstrapping; and an overview of doBootstrap (PDF). pp. 2–4.
- ↑ 3.0 3.1 Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2008). सांख्यिकीय सबक के तत्व (PDF). Springer. pp. 592–593.
- ↑ Janitza, Silke; Hornung, Roman (2018-08-06). "यादृच्छिक वन की आउट-ऑफ़-बैग त्रुटि की अधिकता पर". PLOS ONE (in English). 13 (8): e0201904. doi:10.1371/journal.pone.0201904. ISSN 1932-6203. PMC 6078316. PMID 30080866.