आउट-ऑफ-बैग त्रुटि

From Vigyanwiki
Revision as of 12:55, 2 March 2023 by alpha>Indicwiki (Created page with "{{Machine learning bar}} आउट-ऑफ-बैग (ओओबी) त्रुटि, जिसे आउट-ऑफ-बैग अनुमान भी कहा जात...")
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

आउट-ऑफ-बैग (ओओबी) त्रुटि, जिसे आउट-ऑफ-बैग अनुमान भी कहा जाता है, बूटस्ट्रैप एकत्रीकरण (बैगिंग) का उपयोग करने वाले यादृच्छिक जंगलों, ग्रेडिएंट बूस्टिंग और अन्य यंत्र अधिगम मॉडल की भविष्यवाणी त्रुटि को मापने का एक तरीका है। बैगिंग मॉडल से सीखने के लिए प्रशिक्षण नमूने बनाने के लिए प्रतिस्थापन के साथ सबसैंपलिंग का उपयोग करता है। OOB त्रुटि प्रत्येक प्रशिक्षण नमूने पर माध्य भविष्यवाणी त्रुटि है xi, केवल उन पेड़ों का उपयोग करना जिनके पास नहीं था xi उनके बूटस्ट्रैप नमूने में।[1] बूटस्ट्रैप एकत्रीकरण उन अवलोकनों पर भविष्यवाणियों का मूल्यांकन करके भविष्यवाणी प्रदर्शन सुधार के आउट-ऑफ-बैग अनुमान को परिभाषित करने की अनुमति देता है जो अगले आधार शिक्षार्थी के निर्माण में उपयोग नहीं किए गए थे।

आउट-ऑफ-बैग डेटासेट

जब बूटस्ट्रैप एकत्रीकरण किया जाता है, तो दो स्वतंत्र सेट बनाए जाते हैं। एक सेट, बूटस्ट्रैप नमूना, वह डेटा है जिसे प्रतिस्थापन के साथ नमूनाकरण द्वारा इन-द-बैग में चुना जाता है। आउट-ऑफ़-बैग सेट नमूनाकरण प्रक्रिया में नहीं चुने गए सभी डेटा हैं।

जब यह प्रक्रिया दोहराई जाती है, जैसे कि यादृच्छिक फ़ॉरेस्ट बनाते समय, कई बूटस्ट्रैप नमूने और OOB सेट बनाए जाते हैं। OOB सेट को एक डेटासेट में एकत्र किया जा सकता है, लेकिन प्रत्येक नमूने को केवल उन पेड़ों के लिए आउट-ऑफ़-बैग माना जाता है जो इसे अपने बूटस्ट्रैप नमूने में शामिल नहीं करते हैं। नीचे दी गई तस्वीर से पता चलता है कि प्रत्येक नमूने के लिए डेटा को दो समूहों में विभाजित किया गया है।

बैगिंग प्रक्रिया की कल्पना करना। प्रतिस्थापन के साथ मूल सेट से 4 रोगियों का नमूना लेना और आउट-ऑफ-बैग सेट दिखाना। उस बैग के मॉडल को प्रशिक्षित करने के लिए केवल बूटस्ट्रैप नमूने के रोगियों का उपयोग किया जाएगा।

यह उदाहरण दिखाता है कि बीमारी के निदान के संदर्भ में बैगिंग का उपयोग कैसे किया जा सकता है। रोगियों का एक सेट मूल डेटासेट है, लेकिन प्रत्येक मॉडल को केवल उसके बैग में रोगियों द्वारा प्रशिक्षित किया जाता है। प्रत्येक आउट-ऑफ-बैग सेट में रोगियों का उपयोग उनके संबंधित मॉडलों का परीक्षण करने के लिए किया जा सकता है। परीक्षण इस बात पर विचार करेगा कि क्या मॉडल सटीक रूप से यह निर्धारित कर सकता है कि रोगी को बीमारी है या नहीं।

आउट-ऑफ़-बैग त्रुटि की गणना

चूंकि मॉडल को प्रशिक्षित करने के लिए प्रत्येक आउट-ऑफ-बैग सेट का उपयोग नहीं किया जाता है, यह मॉडल के प्रदर्शन के लिए एक अच्छा परीक्षण है। OOB त्रुटि की विशिष्ट गणना मॉडल के कार्यान्वयन पर निर्भर करती है, लेकिन एक सामान्य गणना इस प्रकार है।

  1. OOB उदाहरण द्वारा प्रशिक्षित नहीं किए गए सभी मॉडल (या यादृच्छिक वन के मामले में पेड़) खोजें।
  2. OOB उदाहरण के वास्तविक मूल्य की तुलना में OOB उदाहरण के लिए इन मॉडलों के परिणाम का बहुमत लें।
  3. OOB डेटासेट में सभी उदाहरणों के लिए OOB त्रुटि संकलित करें।
OOB त्रुटि का एक उदाहरण

बूटस्ट्रैप एकत्रीकरण प्रक्रिया को एक मॉडल की जरूरतों को पूरा करने के लिए अनुकूलित किया जा सकता है। एक सटीक मॉडल सुनिश्चित करने के लिए बूटस्ट्रैप प्रशिक्षण नमूना आकार मूल सेट के करीब होना चाहिए।[2] साथ ही, सही OOB त्रुटि का पता लगाने के लिए मॉडल (वन) के पुनरावृत्तियों (पेड़) की संख्या पर विचार किया जाना चाहिए। OOB त्रुटि कई पुनरावृत्तियों पर स्थिर हो जाएगी इसलिए उच्च संख्या में पुनरावृत्तियों के साथ प्रारंभ करना एक अच्छा विचार है।[3]

दाईं ओर दिए गए उदाहरण में दिखाया गया है, फ़ॉरेस्ट सेट होने के बाद उपरोक्त विधि का उपयोग करके OOB त्रुटि पाई जा सकती है।

क्रॉस-सत्यापन की तुलना

आउट-ऑफ-बैग त्रुटि और क्रॉस-सत्यापन (सांख्यिकी) | क्रॉस-सत्यापन (सीवी) मशीन लर्निंग मॉडल के त्रुटि अनुमान को मापने के विभिन्न तरीके हैं। कई पुनरावृत्तियों पर, दो विधियों को एक समान त्रुटि अनुमान उत्पन्न करना चाहिए। यानी, एक बार OOB त्रुटि स्थिर हो जाने के बाद, यह क्रॉस-वैलिडेशन (सांख्यिकी) | क्रॉस-वैलिडेशन (विशेष रूप से लीव-वन-आउट क्रॉस-वैलिडेशन) त्रुटि में परिवर्तित हो जाएगी।[3] ओओबी विधि का लाभ यह है कि इसमें कम संगणना की आवश्यकता होती है और यह प्रशिक्षण के दौरान मॉडल का परीक्षण करने की अनुमति देता है।

सटीकता और संगति

रैंडम फ़ॉरेस्ट के भीतर त्रुटि अनुमान के लिए अक्सर आउट-ऑफ़-बैग त्रुटि का उपयोग किया जाता है, लेकिन सिल्के जेनिट्ज़ा और रोमन हॉर्नंग द्वारा किए गए एक अध्ययन के निष्कर्ष के साथ, आउट-ऑफ़-बैग त्रुटि ने सेटिंग में अधिक अनुमान दिखाया है जिसमें से समान संख्या में अवलोकन शामिल हैं सभी प्रतिक्रिया वर्ग (संतुलित नमूने), छोटे नमूने के आकार, बड़ी संख्या में पूर्वसूचक चर, भविष्यवक्ताओं के बीच छोटे सहसंबंध और कमजोर प्रभाव।[4]


यह भी देखें

संदर्भ

  1. James, Gareth; Witten, Daniela; Hastie, Trevor; Tibshirani, Robert (2013). सांख्यिकीय सीखने का एक परिचय. Springer. pp. 316–321.
  2. Ong, Desmond (2014). A primer to bootstrapping; and an overview of doBootstrap (PDF). pp. 2–4.
  3. 3.0 3.1 Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2008). सांख्यिकीय सबक के तत्व (PDF). Springer. pp. 592–593.
  4. Janitza, Silke; Hornung, Roman (2018-08-06). "यादृच्छिक वन की आउट-ऑफ़-बैग त्रुटि की अधिकता पर". PLOS ONE (in English). 13 (8): e0201904. doi:10.1371/journal.pone.0201904. ISSN 1932-6203. PMC 6078316. PMID 30080866.