आउट-ऑफ-बैग त्रुटि: Difference between revisions
(TEXT) |
(TEXT) |
||
Line 1: | Line 1: | ||
{{Machine learning bar}} | {{Machine learning bar}} | ||
आउट-ऑफ-बैग (ओओबी) त्रुटि, जिसे आउट-ऑफ-बैग आकलित भी कहा जाता है, यादृच्छिक | आउट-ऑफ-बैग (ओओबी) त्रुटि, जिसे आउट-ऑफ-बैग आकलित भी कहा जाता है, यादृच्छिक फारेस्ट,[[ बूटस्ट्रैप एकत्रीकरण | बूटस्ट्रैप निर्णय वृक्ष]] और बूटस्ट्रैप समुच्चयन (बैगिंग) का उपयोग करने वाले अन्य[[ यंत्र अधिगम ]]मॉडल की [[भविष्यवाणी त्रुटि|पूर्वानुमान त्रुटि]] को मापने की एक विधि है। बैगिंग मॉडल से सीखने के लिए प्रशिक्षण प्रतिदर्श बनाने के लिए प्रतिस्थापन के साथ उपप्रतिचयन का उपयोग किया जाता है। OOB त्रुटि प्रत्येक प्रशिक्षण प्रतिदर्श {{mvar|x<sub>i</sub>}} पर माध्य पूर्वानुमान त्रुटि है, केवल उन वृक्षो का उपयोग करते हुए जिनके बूटस्ट्रैप प्रतिदर्श में {{mvar|x<sub>i</sub>}} नहीं था।<ref name="islr">{{cite book |first1=Gareth |last1=James |first2=Daniela |last2=Witten |first3=Trevor |last3=Hastie |first4=Robert |last4=Tibshirani |title=सांख्यिकीय सीखने का एक परिचय|publisher=Springer |year=2013 |url=http://www-bcf.usc.edu/~gareth/ISL/ |pages=316–321}}</ref> | ||
बूटस्ट्रैप एकत्रीकरण उन अवलोकनों पर | बूटस्ट्रैप एकत्रीकरण उन अवलोकनों पर पूर्वानुमान का मूल्यांकन करके पूर्वानुमान प्रदर्शन सुधार के आउट-ऑफ-बैग आकलित को परिभाषित करने की अनुमति देता है जो अगले आधार शिक्षार्थी के रचना में उपयोग नहीं किए गए थे। | ||
== आउट-ऑफ-बैग डेटासमुच्चय == | == आउट-ऑफ-बैग डेटासमुच्चय == | ||
जब बूटस्ट्रैप एकत्रीकरण किया जाता है, तो दो स्वतंत्र समुच्चय बनाए जाते हैं। एक समुच्चय, बूटस्ट्रैप प्रतिदर्श, प्रतिस्थापन के साथ प्रतिचयन द्वारा "इन-द-बैग" चयनित किया गया डेटा है। आउट-ऑफ़-बैग समुच्चय प्रतिचयन प्रक्रिया में नहीं चुने गए सभी डेटा है। | जब बूटस्ट्रैप एकत्रीकरण किया जाता है, तो दो स्वतंत्र समुच्चय बनाए जाते हैं। एक समुच्चय, बूटस्ट्रैप प्रतिदर्श, प्रतिस्थापन के साथ प्रतिचयन द्वारा "इन-द-बैग" चयनित किया गया डेटा है। आउट-ऑफ़-बैग समुच्चय प्रतिचयन प्रक्रिया में नहीं चुने गए सभी डेटा है। | ||
जब यह प्रक्रिया दोहराई जाती है, जैसे कि यादृच्छिक | जब यह प्रक्रिया दोहराई जाती है, जैसे कि यादृच्छिक फारेस्ट बनाते समय, कई बूटस्ट्रैप प्रतिदर्श और OOB समुच्चय बनाए जाते हैं। OOB समुच्चय को एक डेटासमुच्चय में एकत्र किया जा सकता है, लेकिन प्रत्येक प्रतिदर्श को केवल उन वृक्षो के लिए आउट-ऑफ़-बैग माना जाता है जो इसे अपने बूटस्ट्रैप प्रतिदर्श में सम्मिलित नहीं करते हैं। नीचे दिए गए चित्र से पता चलता है कि प्रत्येक प्रतिदर्श के लिए डेटा को दो समूहों में विभाजित किया गया है। | ||
[[File:Sampling with replacement and out-of-bag dataset - medical context.jpg|center|thumb|752x752px|बैगिंग प्रक्रिया की कल्पना करना। प्रतिस्थापन के साथ मूल समुच्चय से 4 रोगियों का प्रतिदर्श लेना और आउट-ऑफ-बैग समुच्चय दिखाना। उस बैग के मॉडल को प्रशिक्षित करने के लिए केवल बूटस्ट्रैप प्रतिदर्श के रोगियों का उपयोग किया जाएगा।]]यह उदाहरण दिखाता है कि बीमारी के निदान के संदर्भ में बैगिंग का उपयोग कैसे किया जा सकता है। रोगियों का एक समुच्चय मूल डेटासमुच्चय है, लेकिन प्रत्येक मॉडल को केवल उसके बैग में रोगियों द्वारा प्रशिक्षित किया जाता है। प्रत्येक आउट-ऑफ-बैग समुच्चय में रोगियों का उपयोग उनके संबंधित मॉडलों का परीक्षण करने के लिए किया जा सकता है। परीक्षण इस बात पर विचार करेगा कि क्या मॉडल यथार्थ रूप से यह निर्धारित कर सकता है कि रोगी को बीमारी है या नहीं है। | [[File:Sampling with replacement and out-of-bag dataset - medical context.jpg|center|thumb|752x752px|बैगिंग प्रक्रिया की कल्पना करना। प्रतिस्थापन के साथ मूल समुच्चय से 4 रोगियों का प्रतिदर्श लेना और आउट-ऑफ-बैग समुच्चय दिखाना। उस बैग के मॉडल को प्रशिक्षित करने के लिए केवल बूटस्ट्रैप प्रतिदर्श के रोगियों का उपयोग किया जाएगा।]]यह उदाहरण दिखाता है कि बीमारी के निदान के संदर्भ में बैगिंग का उपयोग कैसे किया जा सकता है। रोगियों का एक समुच्चय मूल डेटासमुच्चय है, लेकिन प्रत्येक मॉडल को केवल उसके बैग में रोगियों द्वारा प्रशिक्षित किया जाता है। प्रत्येक आउट-ऑफ-बैग समुच्चय में रोगियों का उपयोग उनके संबंधित मॉडलों का परीक्षण करने के लिए किया जा सकता है। परीक्षण इस बात पर विचार करेगा कि क्या मॉडल यथार्थ रूप से यह निर्धारित कर सकता है कि रोगी को बीमारी है या नहीं है। | ||
Line 14: | Line 14: | ||
क्योंकि मॉडल को प्रशिक्षित करने के लिए प्रत्येक आउट-ऑफ-बैग समुच्चय का उपयोग नहीं किया जाता है, यह मॉडल के प्रदर्शन के लिए एक अच्छा परीक्षण है। OOB त्रुटि की विशिष्ट गणना मॉडल के कार्यान्वयन पर निर्भर करती है, लेकिन एक सामान्य गणना इस प्रकार है। | क्योंकि मॉडल को प्रशिक्षित करने के लिए प्रत्येक आउट-ऑफ-बैग समुच्चय का उपयोग नहीं किया जाता है, यह मॉडल के प्रदर्शन के लिए एक अच्छा परीक्षण है। OOB त्रुटि की विशिष्ट गणना मॉडल के कार्यान्वयन पर निर्भर करती है, लेकिन एक सामान्य गणना इस प्रकार है। | ||
# OOB उदाहरण द्वारा प्रशिक्षित नहीं किए गए सभी मॉडल (या वृक्ष, एक यादृच्छिक | # OOB उदाहरण द्वारा प्रशिक्षित नहीं किए गए सभी मॉडल (या वृक्ष, एक यादृच्छिक फारेस्ट के प्रकरण में) खोजें। | ||
# OOB उदाहरण के वास्तविक मूल्य की तुलना में OOB उदाहरण के लिए इन मॉडलों के परिणाम का बहुमत लें। | # OOB उदाहरण के वास्तविक मूल्य की तुलना में OOB उदाहरण के लिए इन मॉडलों के परिणाम का बहुमत लें। | ||
# OOB डेटासमुच्चय में सभी उदाहरणों के लिए OOB त्रुटि संकलित करें। | # OOB डेटासमुच्चय में सभी उदाहरणों के लिए OOB त्रुटि संकलित करें। | ||
[[File:OOB Error Example.png|thumb|OOB त्रुटि का एक उदाहरण]]बूटस्ट्रैप एकत्रीकरण प्रक्रिया को किसी मॉडल की आवश्यकताओं के अनुसार अनुकूलित किया जा सकता है। एक यथार्थ मॉडल सुनिश्चित करने के लिए बूटस्ट्रैप प्रशिक्षण प्रतिदर्श आकार मूल समुच्चय के पास होना चाहिए।<ref>{{Cite book|last=Ong|first=Desmond|url=https://github.com/desmond-ong/doBootstrap/blob/master/doBootstrapPrimer.pdf|title=A primer to bootstrapping; and an overview of doBootstrap|year=2014|pages=2–4}}</ref> साथ ही, सही OOB त्रुटि का पता लगाने के लिए मॉडल ( | [[File:OOB Error Example.png|thumb|OOB त्रुटि का एक उदाहरण]]बूटस्ट्रैप एकत्रीकरण प्रक्रिया को किसी मॉडल की आवश्यकताओं के अनुसार अनुकूलित किया जा सकता है। एक यथार्थ मॉडल सुनिश्चित करने के लिए बूटस्ट्रैप प्रशिक्षण प्रतिदर्श आकार मूल समुच्चय के पास होना चाहिए।<ref>{{Cite book|last=Ong|first=Desmond|url=https://github.com/desmond-ong/doBootstrap/blob/master/doBootstrapPrimer.pdf|title=A primer to bootstrapping; and an overview of doBootstrap|year=2014|pages=2–4}}</ref> साथ ही, सही OOB त्रुटि का पता लगाने के लिए मॉडल (फारेस्ट) के पुनरावृत्तियों (वृक्ष) की संख्या पर विचार किया जाना चाहिए। OOB त्रुटि कई पुनरावृत्तियों पर स्थिर हो जाएगी इसलिए उच्च संख्या में पुनरावृत्तियों के साथ प्रारंभ करना एक अच्छा विचार है।<ref name=":0">{{Cite book|last1=Hastie|first1=Trevor|url=https://web.stanford.edu/~hastie/Papers/ESLII.pdf#page=611&zoom=auto|title=सांख्यिकीय सबक के तत्व|last2=Tibshirani|first2=Robert|last3=Friedman|first3=Jerome|publisher=[[Springer Publishing|Springer]]|year=2008|pages=592–593}}</ref> | ||
दाईं ओर दिए गए उदाहरण में दिखाया गया है, | दाईं ओर दिए गए उदाहरण में दिखाया गया है, फारेस्ट समुच्चय होने के बाद उपरोक्त विधि का उपयोग करके OOB त्रुटि पाई जा सकती है। | ||
== अंतः वैधीकरण की तुलना == | == अंतः वैधीकरण की तुलना == | ||
Line 24: | Line 24: | ||
== शुद्धता और निरंतरता == | == शुद्धता और निरंतरता == | ||
आउट-ऑफ़-बैग त्रुटि का उपयोग प्रायः यादृच्छिक | आउट-ऑफ़-बैग त्रुटि का उपयोग प्रायः यादृच्छिक फारेस्ट के अन्तर्गत त्रुटि अनुमान के लिए किया जाता है, लेकिन सिल्के जेनिट्ज़ा और रोमन हॉर्नंग द्वारा किए गए एक अध्ययन के निष्कर्ष के साथ, आउट-ऑफ़-बैग त्रुटि ने स्थापन में अधिक आकलित लगाया है जिसमें सभी प्रतिक्रिया वर्गों (संतुलित प्रतिदर्श), छोटे प्रतिदर्श के आकार, बड़ी संख्या में पूर्वसूचक चर, प्राग्वक्ता के मध्य छोटे सहसंबंध और कमजोर प्रभाव सम्मिलित हैं।<ref>{{Cite journal|last1=Janitza|first1=Silke|last2=Hornung|first2=Roman|date=2018-08-06|title=यादृच्छिक वन की आउट-ऑफ़-बैग त्रुटि की अधिकता पर|journal=PLOS ONE|language=en|volume=13|issue=8|pages=e0201904|doi=10.1371/journal.pone.0201904|pmid=30080866|pmc=6078316|issn=1932-6203|doi-access=free}}</ref> | ||
== यह भी देखें == | == यह भी देखें == | ||
* [[बूस्टिंग (मेटा-एल्गोरिदम)]] | * [[बूस्टिंग (मेटा-एल्गोरिदम)]] | ||
Line 30: | Line 30: | ||
* [[बूटस्ट्रैपिंग (सांख्यिकी)]] | * [[बूटस्ट्रैपिंग (सांख्यिकी)]] | ||
*[[अंतः वैधीकरण (सांख्यिकी)]] | *[[अंतः वैधीकरण (सांख्यिकी)]] | ||
* [[यादृच्छिक जंगल| | * [[यादृच्छिक जंगल|यादृच्छिकफारेस्ट]] | ||
* [[रैंडम सबस्पेस विधि|यादृच्छिक उप-स्थान विधि (विशेषता बैगिंग)]] | * [[रैंडम सबस्पेस विधि|यादृच्छिक उप-स्थान विधि (विशेषता बैगिंग)]] | ||
Revision as of 10:50, 13 March 2023
Part of a series on |
Machine learning and data mining |
---|
आउट-ऑफ-बैग (ओओबी) त्रुटि, जिसे आउट-ऑफ-बैग आकलित भी कहा जाता है, यादृच्छिक फारेस्ट, बूटस्ट्रैप निर्णय वृक्ष और बूटस्ट्रैप समुच्चयन (बैगिंग) का उपयोग करने वाले अन्ययंत्र अधिगम मॉडल की पूर्वानुमान त्रुटि को मापने की एक विधि है। बैगिंग मॉडल से सीखने के लिए प्रशिक्षण प्रतिदर्श बनाने के लिए प्रतिस्थापन के साथ उपप्रतिचयन का उपयोग किया जाता है। OOB त्रुटि प्रत्येक प्रशिक्षण प्रतिदर्श xi पर माध्य पूर्वानुमान त्रुटि है, केवल उन वृक्षो का उपयोग करते हुए जिनके बूटस्ट्रैप प्रतिदर्श में xi नहीं था।[1]
बूटस्ट्रैप एकत्रीकरण उन अवलोकनों पर पूर्वानुमान का मूल्यांकन करके पूर्वानुमान प्रदर्शन सुधार के आउट-ऑफ-बैग आकलित को परिभाषित करने की अनुमति देता है जो अगले आधार शिक्षार्थी के रचना में उपयोग नहीं किए गए थे।
आउट-ऑफ-बैग डेटासमुच्चय
जब बूटस्ट्रैप एकत्रीकरण किया जाता है, तो दो स्वतंत्र समुच्चय बनाए जाते हैं। एक समुच्चय, बूटस्ट्रैप प्रतिदर्श, प्रतिस्थापन के साथ प्रतिचयन द्वारा "इन-द-बैग" चयनित किया गया डेटा है। आउट-ऑफ़-बैग समुच्चय प्रतिचयन प्रक्रिया में नहीं चुने गए सभी डेटा है।
जब यह प्रक्रिया दोहराई जाती है, जैसे कि यादृच्छिक फारेस्ट बनाते समय, कई बूटस्ट्रैप प्रतिदर्श और OOB समुच्चय बनाए जाते हैं। OOB समुच्चय को एक डेटासमुच्चय में एकत्र किया जा सकता है, लेकिन प्रत्येक प्रतिदर्श को केवल उन वृक्षो के लिए आउट-ऑफ़-बैग माना जाता है जो इसे अपने बूटस्ट्रैप प्रतिदर्श में सम्मिलित नहीं करते हैं। नीचे दिए गए चित्र से पता चलता है कि प्रत्येक प्रतिदर्श के लिए डेटा को दो समूहों में विभाजित किया गया है।
यह उदाहरण दिखाता है कि बीमारी के निदान के संदर्भ में बैगिंग का उपयोग कैसे किया जा सकता है। रोगियों का एक समुच्चय मूल डेटासमुच्चय है, लेकिन प्रत्येक मॉडल को केवल उसके बैग में रोगियों द्वारा प्रशिक्षित किया जाता है। प्रत्येक आउट-ऑफ-बैग समुच्चय में रोगियों का उपयोग उनके संबंधित मॉडलों का परीक्षण करने के लिए किया जा सकता है। परीक्षण इस बात पर विचार करेगा कि क्या मॉडल यथार्थ रूप से यह निर्धारित कर सकता है कि रोगी को बीमारी है या नहीं है।
आउट-ऑफ़-बैग त्रुटि की गणना
क्योंकि मॉडल को प्रशिक्षित करने के लिए प्रत्येक आउट-ऑफ-बैग समुच्चय का उपयोग नहीं किया जाता है, यह मॉडल के प्रदर्शन के लिए एक अच्छा परीक्षण है। OOB त्रुटि की विशिष्ट गणना मॉडल के कार्यान्वयन पर निर्भर करती है, लेकिन एक सामान्य गणना इस प्रकार है।
- OOB उदाहरण द्वारा प्रशिक्षित नहीं किए गए सभी मॉडल (या वृक्ष, एक यादृच्छिक फारेस्ट के प्रकरण में) खोजें।
- OOB उदाहरण के वास्तविक मूल्य की तुलना में OOB उदाहरण के लिए इन मॉडलों के परिणाम का बहुमत लें।
- OOB डेटासमुच्चय में सभी उदाहरणों के लिए OOB त्रुटि संकलित करें।
बूटस्ट्रैप एकत्रीकरण प्रक्रिया को किसी मॉडल की आवश्यकताओं के अनुसार अनुकूलित किया जा सकता है। एक यथार्थ मॉडल सुनिश्चित करने के लिए बूटस्ट्रैप प्रशिक्षण प्रतिदर्श आकार मूल समुच्चय के पास होना चाहिए।[2] साथ ही, सही OOB त्रुटि का पता लगाने के लिए मॉडल (फारेस्ट) के पुनरावृत्तियों (वृक्ष) की संख्या पर विचार किया जाना चाहिए। OOB त्रुटि कई पुनरावृत्तियों पर स्थिर हो जाएगी इसलिए उच्च संख्या में पुनरावृत्तियों के साथ प्रारंभ करना एक अच्छा विचार है।[3]
दाईं ओर दिए गए उदाहरण में दिखाया गया है, फारेस्ट समुच्चय होने के बाद उपरोक्त विधि का उपयोग करके OOB त्रुटि पाई जा सकती है।
अंतः वैधीकरण की तुलना
यंत्र अधिगम मॉडल के त्रुटि अनुमान को मापने के लिए आउट-ऑफ-बैग त्रुटि और अंतः वैधीकरण (सीवी) अलग-अलग विधि हैं। कई पुनरावृत्तियों पर, दो विधियों को एक समान त्रुटि अनुमान उत्पन्न करना चाहिए। अर्थात, एक बार OOB त्रुटि स्थिर हो जाने के बाद, यह अंतः वैधीकरण (विशेष रूप से लीव-वन-आउट अंतः वैधीकरण) त्रुटि में परिवर्तित हो जाएगी।[3] OOB विधि का लाभ यह है कि इसमें कम संगणना की आवश्यकता होती है और यह प्रशिक्षण के समय मॉडल का परीक्षण करने की अनुमति देता है।
शुद्धता और निरंतरता
आउट-ऑफ़-बैग त्रुटि का उपयोग प्रायः यादृच्छिक फारेस्ट के अन्तर्गत त्रुटि अनुमान के लिए किया जाता है, लेकिन सिल्के जेनिट्ज़ा और रोमन हॉर्नंग द्वारा किए गए एक अध्ययन के निष्कर्ष के साथ, आउट-ऑफ़-बैग त्रुटि ने स्थापन में अधिक आकलित लगाया है जिसमें सभी प्रतिक्रिया वर्गों (संतुलित प्रतिदर्श), छोटे प्रतिदर्श के आकार, बड़ी संख्या में पूर्वसूचक चर, प्राग्वक्ता के मध्य छोटे सहसंबंध और कमजोर प्रभाव सम्मिलित हैं।[4]
यह भी देखें
- बूस्टिंग (मेटा-एल्गोरिदम)
- बूटस्ट्रैप एकत्रीकरण
- बूटस्ट्रैपिंग (सांख्यिकी)
- अंतः वैधीकरण (सांख्यिकी)
- यादृच्छिकफारेस्ट
- यादृच्छिक उप-स्थान विधि (विशेषता बैगिंग)
संदर्भ
- ↑ James, Gareth; Witten, Daniela; Hastie, Trevor; Tibshirani, Robert (2013). सांख्यिकीय सीखने का एक परिचय. Springer. pp. 316–321.
- ↑ Ong, Desmond (2014). A primer to bootstrapping; and an overview of doBootstrap (PDF). pp. 2–4.
- ↑ 3.0 3.1 Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2008). सांख्यिकीय सबक के तत्व (PDF). Springer. pp. 592–593.
- ↑ Janitza, Silke; Hornung, Roman (2018-08-06). "यादृच्छिक वन की आउट-ऑफ़-बैग त्रुटि की अधिकता पर". PLOS ONE (in English). 13 (8): e0201904. doi:10.1371/journal.pone.0201904. ISSN 1932-6203. PMC 6078316. PMID 30080866.