आउट-ऑफ-बैग त्रुटि

From Vigyanwiki
Revision as of 15:10, 11 March 2023 by alpha>Soumyabisht (TEXT)

आउट-ऑफ-बैग (ओओबी) त्रुटि, जिसे आउट-ऑफ-बैग अनुमान भी कहा जाता है, यादृच्छिकफ़ॉरेस्टों, बूटस्ट्रैप निर्णय वृक्ष और बूटस्ट्रैप समुच्चयन (बैगिंग) का उपयोग करने वाले अन्ययंत्र अधिगम मॉडल की भविष्यवाणी त्रुटि को मापने की एक विधि है। बैगिंग मॉडल से सीखने के लिए प्रशिक्षण प्रतिदर्श बनाने के लिए प्रतिस्थापन के साथ उपप्रतिचयन का उपयोग करता है। OOB त्रुटि प्रत्येक प्रशिक्षण प्रतिदर्श xi पर माध्य भविष्यवाणी त्रुटि है, केवल उन वृक्षो का उपयोग करते हुए जिनके बूटस्ट्रैप प्रतिदर्श में xi नहीं था।[1]

बूटस्ट्रैप एकत्रीकरण उन अवलोकनों पर भविष्यवाणियों का मूल्यांकन करके भविष्यवाणी प्रदर्शन सुधार के आउट-ऑफ-बैग अनुमान को परिभाषित करने की अनुमति देता है जो अगले आधार शिक्षार्थी के रचना में उपयोग नहीं किए गए थे।

आउट-ऑफ-बैग डेटासमुच्चय

जब बूटस्ट्रैप एकत्रीकरण किया जाता है, तो दो स्वतंत्र समुच्चय बनाए जाते हैं। एक समुच्चय, बूटस्ट्रैप प्रतिदर्श, प्रतिस्थापन के साथ प्रतिचयन द्वारा "इन-द-बैग" चयनित गया डेटा है। आउट-ऑफ़-बैग समुच्चय प्रतिचयन प्रक्रिया में नहीं चुना गया सभी डेटा है।

जब यह प्रक्रिया दोहराई जाती है, जैसे कि यादृच्छिक फ़ॉरेस्ट बनाते समय, कई बूटस्ट्रैप प्रतिदर्श और OOB समुच्चय बनाए जाते हैं। OOB समुच्चय को एक डेटासमुच्चय में एकत्र किया जा सकता है, लेकिन प्रत्येक प्रतिदर्श को केवल उन वृक्षो के लिए आउट-ऑफ़-बैग माना जाता है जो इसे अपने बूटस्ट्रैप प्रतिदर्श में सम्मिलित नहीं करते हैं। नीचे दी गई तस्वीर से पता चलता है कि प्रत्येक प्रतिदर्श के लिए डेटा को दो समूहों में विभाजित किया गया है।

बैगिंग प्रक्रिया की कल्पना करना। प्रतिस्थापन के साथ मूल समुच्चय से 4 रोगियों का प्रतिदर्श लेना और आउट-ऑफ-बैग समुच्चय दिखाना। उस बैग के मॉडल को प्रशिक्षित करने के लिए केवल बूटस्ट्रैप प्रतिदर्श के रोगियों का उपयोग किया जाएगा।

यह उदाहरण दिखाता है कि बीमारी के निदान के संदर्भ में बैगिंग का उपयोग कैसे किया जा सकता है। रोगियों का एक समुच्चय मूल डेटासमुच्चय है, लेकिन प्रत्येक मॉडल को केवल उसके बैग में रोगियों द्वारा प्रशिक्षित किया जाता है। प्रत्येक आउट-ऑफ-बैग समुच्चय में रोगियों का उपयोग उनके संबंधित मॉडलों का परीक्षण करने के लिए किया जा सकता है। परीक्षण इस बात पर विचार करेगा कि क्या मॉडल यथार्थ रूप से यह निर्धारित कर सकता है कि रोगी को बीमारी है या नहीं है।

आउट-ऑफ़-बैग त्रुटि की गणना

चूंकि मॉडल को प्रशिक्षित करने के लिए प्रत्येक आउट-ऑफ-बैग समुच्चय का उपयोग नहीं किया जाता है, यह मॉडल के प्रदर्शन के लिए एक अच्छा परीक्षण है। OOB त्रुटि की विशिष्ट गणना मॉडल के कार्यान्वयन पर निर्भर करती है, लेकिन एक सामान्य गणना इस प्रकार है।

  1. OOB उदाहरण द्वारा प्रशिक्षित नहीं किए गए सभी मॉडल (या यादृच्छिक वन के मामले में पेड़) खोजें।
  2. OOB उदाहरण के वास्तविक मूल्य की तुलना में OOB उदाहरण के लिए इन मॉडलों के परिणाम का बहुमत लें।
  3. OOB डेटासमुच्चय में सभी उदाहरणों के लिए OOB त्रुटि संकलित करें।
OOB त्रुटि का एक उदाहरण

बूटस्ट्रैप एकत्रीकरण प्रक्रिया को एक मॉडल की जरूरतों को पूरा करने के लिए अनुकूलित किया जा सकता है। एक सटीक मॉडल सुनिश्चित करने के लिए बूटस्ट्रैप प्रशिक्षण प्रतिदर्श आकार मूल समुच्चय के करीब होना चाहिए।[2] साथ ही, सही OOB त्रुटि का पता लगाने के लिए मॉडल (वन) के पुनरावृत्तियों (पेड़) की संख्या पर विचार किया जाना चाहिए। OOB त्रुटि कई पुनरावृत्तियों पर स्थिर हो जाएगी इसलिए उच्च संख्या में पुनरावृत्तियों के साथ प्रारंभ करना एक अच्छा विचार है।[3]

दाईं ओर दिए गए उदाहरण में दिखाया गया है, फ़ॉरेस्ट समुच्चय होने के बाद उपरोक्त विधि का उपयोग करके OOB त्रुटि पाई जा सकती है।

क्रॉस-सत्यापन की तुलना

आउट-ऑफ-बैग त्रुटि और क्रॉस-सत्यापन (सांख्यिकी) | क्रॉस-सत्यापन (सीवी) मशीन लर्निंग मॉडल के त्रुटि अनुमान को मापने के विभिन्न तरीके हैं। कई पुनरावृत्तियों पर, दो विधियों को एक समान त्रुटि अनुमान उत्पन्न करना चाहिए। यानी, एक बार OOB त्रुटि स्थिर हो जाने के बाद, यह क्रॉस-वैलिडेशन (सांख्यिकी) | क्रॉस-वैलिडेशन (विशेष रूप से लीव-वन-आउट क्रॉस-वैलिडेशन) त्रुटि में परिवर्तित हो जाएगी।[3] ओओबी विधि का लाभ यह है कि इसमें कम संगणना की आवश्यकता होती है और यह प्रशिक्षण के दौरान मॉडल का परीक्षण करने की अनुमति देता है।

सटीकता और संगति

रैंडम फ़ॉरेस्ट के भीतर त्रुटि अनुमान के लिए अक्सर आउट-ऑफ़-बैग त्रुटि का उपयोग किया जाता है, लेकिन सिल्के जेनिट्ज़ा और रोमन हॉर्नंग द्वारा किए गए एक अध्ययन के निष्कर्ष के साथ, आउट-ऑफ़-बैग त्रुटि ने समुच्चयिंग में अधिक अनुमान दिखाया है जिसमें से समान संख्या में अवलोकन सम्मिलित हैं सभी प्रतिक्रिया वर्ग (संतुलित प्रतिदर्श), छोटे प्रतिदर्श के आकार, बड़ी संख्या में पूर्वसूचक चर, भविष्यवक्ताओं के बीच छोटे सहसंबंध और कमजोर प्रभाव।[4]

यह भी देखें

संदर्भ

  1. James, Gareth; Witten, Daniela; Hastie, Trevor; Tibshirani, Robert (2013). सांख्यिकीय सीखने का एक परिचय. Springer. pp. 316–321.
  2. Ong, Desmond (2014). A primer to bootstrapping; and an overview of doBootstrap (PDF). pp. 2–4.
  3. 3.0 3.1 Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2008). सांख्यिकीय सबक के तत्व (PDF). Springer. pp. 592–593.
  4. Janitza, Silke; Hornung, Roman (2018-08-06). "यादृच्छिक वन की आउट-ऑफ़-बैग त्रुटि की अधिकता पर". PLOS ONE (in English). 13 (8): e0201904. doi:10.1371/journal.pone.0201904. ISSN 1932-6203. PMC 6078316. PMID 30080866.