रैंडम सबस्पेस विधि: Difference between revisions
No edit summary |
No edit summary |
||
Line 1: | Line 1: | ||
{{Short description|Method in machine learning}} | {{Short description|Method in machine learning}} | ||
[[ यंत्र अधिगम ]] में | [[ यंत्र अधिगम ]] में यादृच्छिक उपस्थान विधि,<ref name="ho1998">{{cite journal |first=Tin Kam |last=Ho |title=निर्णय वनों के निर्माण के लिए रैंडम सबस्पेस विधि|journal=IEEE Transactions on Pattern Analysis and Machine Intelligence |year=1998 |volume=20 |issue=8 |pages=832–844 |doi=10.1109/34.709601 |url=https://pdfs.semanticscholar.org/b41d/0fa5fdaadd47fc882d3db04277d03fb21832.pdf |archive-url=https://web.archive.org/web/20190514121243/https://pdfs.semanticscholar.org/b41d/0fa5fdaadd47fc882d3db04277d03fb21832.pdf |url-status=dead |archive-date=2019-05-14 }}</ref> विशेषता बैगिंग भी कहा जाता है<ref>{{cite journal |first=R. |last=Bryll |title=Attribute bagging: improving accuracy of classifier ensembles by using random feature subsets |journal=Pattern Recognition | year=2003 | volume=36 | issue=6 | pages=1291–1302 | doi = 10.1016/s0031-3203(02)00121-8 }}</ref> या फीचर बैगिंग, एक पहनावा सीखने की विधि है जो पूरे फीचर सेट के बजाय [[फ़ीचर (मशीन लर्निंग)|फ़ीचर (यंत्र अधिगम)]] के यादृच्छिक नमूनों पर प्रशिक्षण देकर अनुमानकों के बीच [[सहसंबंध और निर्भरता]] को कम करने का प्रयास करती है।जो उन्हें पूरे के अतिरिक्त सुविधाओं के यादृच्छिक नमूनों पर प्रशिक्षित करता है। विशेषता संग्रह। | ||
== प्रेरणा == | == प्रेरणा == | ||
समेकित अधिगम में कई शिक्षार्थियों द्वारा निर्मित मॉडलों को एक समूह में संयोजित करने का प्रयास किया जाता है जो मूल शिक्षार्थियों की तुलना में उत्तम प्रदर्शन करता है। शिक्षार्थियों के संयोजन का एक तरीका [[बूटस्ट्रैप एकत्रीकरण]] या बैगिंग है, जो प्रत्येक शिक्षार्थी को प्रशिक्षण बिंदुओं का एक यादृच्छिक रूप से नमूना सबसेट दिखाता है ताकि शिक्षार्थी अलग-अलग [[सांख्यिकीय मॉडल]] तैयार कर सकें जो समझदारी से औसत हो सकते हैं।{{efn|If each learner follows the same, [[deterministic algorithm|deterministic]], algorithm, the models produced are necessarily all the same.}} बैगिंग में, एक नमूना प्रशिक्षण बिंदु पूर्ण प्रशिक्षण सेट से [[प्रतिस्थापन के साथ नमूनाकरण]] करता है। | समेकित अधिगम में कई शिक्षार्थियों द्वारा निर्मित मॉडलों को एक समूह में संयोजित करने का प्रयास किया जाता है जो मूल शिक्षार्थियों की तुलना में उत्तम प्रदर्शन करता है। शिक्षार्थियों के संयोजन का एक तरीका [[बूटस्ट्रैप एकत्रीकरण]] या बैगिंग है, जो प्रत्येक शिक्षार्थी को प्रशिक्षण बिंदुओं का एक यादृच्छिक रूप से नमूना सबसेट दिखाता है ताकि शिक्षार्थी अलग-अलग [[सांख्यिकीय मॉडल]] तैयार कर सकें जो समझदारी से औसत हो सकते हैं।{{efn|If each learner follows the same, [[deterministic algorithm|deterministic]], algorithm, the models produced are necessarily all the same.}} बैगिंग में, एक नमूना प्रशिक्षण बिंदु पूर्ण प्रशिक्षण सेट से [[प्रतिस्थापन के साथ नमूनाकरण]] करता है। | ||
यादृच्छिक उपस्थान विधि बैगिंग के समान है, सिवाय इसके कि फ़ीचर (यंत्र अधिगम) (विशेषताएँ, भविष्यवक्ता, स्वतंत्र चर) प्रत्येक शिक्षार्थी के लिए प्रतिस्थापन के साथ यादृच्छिक रूप से नमूने लिए जाते हैं। अनौपचारिक रूप से, यह व्यक्तिगत शिक्षार्थियों को उन विशेषताओं पर अधिक ध्यान केंद्रित नहीं करने का कारण बनता है जो प्रशिक्षण सेट में अत्यधिक भविष्य कहनेवाला / वर्णनात्मक दिखाई देते हैं, लेकिन उस सेट के बाहर के बिंदुओं के लिए भविष्यवाणी करने में विफल रहते हैं। इस कारण से, यादृच्छिक उप-स्थान उच्च-आयामी समस्याओं के लिए एक आकर्षक विकल्प हैं जहां प्रशिक्षण बिंदुओं की संख्या की तुलना में सुविधाओं की संख्या बहुत बड़ी है, जैसे एफएमआरआई डेटा से सीखना<ref>{{cite journal|last=Kuncheva|first=Ludmila|author-link=Ludmila Kuncheva|year=2010|title=fMRI वर्गीकरण के लिए रैंडम सबस्पेस एन्सेम्बल|url=http://pages.bangor.ac.uk/~mas00a/papers/lkjrcpdlsjtmi10.pdf|journal=IEEE Transactions on Medical Imaging|volume=29|issue=2|pages=531–542|doi=10.1109/TMI.2009.2037756|display-authors=etal|citeseerx=10.1.1.157.1178}}</ref> या जीन अभिव्यक्ति डेटा से सीखना।<ref>{{cite journal | last1 = Bertoni | first1 = Alberto | last2 = Folgieri | first2 = Raffaella | last3 = Valentini | first3 = Giorgio | year = 2005 | title = सपोर्ट वेक्टर मशीनों के रैंडम सबस्पेस एनसेम्बल के साथ जैव-आणविक कैंसर की भविष्यवाणी| url = https://air.unimi.it/bitstream/2434/9370/4/rs-nc.pdf| journal = Neurocomputing | volume = 63 | pages = 535–539 | doi=10.1016/j.neucom.2004.07.007| hdl = 2434/9370 | hdl-access = free }}</ref> | |||
यादृच्छिक उपस्थान विधि का उपयोग निर्णय वृक्ष सीखने के लिए किया गया है; जब निर्णय वृक्षों की "साधारण" बैगिंग के साथ जोड़ा जाता है, तो परिणामी मॉडल [[यादृच्छिक वन]] कहलाते हैं।<ref name="ho1995">{{cite conference |first=Tin Kam |last=Ho|title=यादृच्छिक निर्णय वन|conference=Proceedings of the 3rd International Conference on Document Analysis and Recognition, Montreal, QC, 14–16 August 1995|year=1995 |pages=278–282|url=http://ect.bell-labs.com/who/tkh/publications/papers/odt.pdf}}</ref> इसे [[रैखिक वर्गीकारक]]ों पर भी लागू किया गया है,<ref>{{cite journal |first=Marina |last=Skurichina |title=रैखिक क्लासीफायर के लिए बैगिंग, बूस्टिंग और रैंडम सबस्पेस विधि|journal=Pattern Analysis and Applications |year=2002 |volume=5 |issue=2 |pages=121–135 |doi=10.1007/s100440200011}}</ref> [[समर्थन वेक्टर यंत्र]],<ref>{{cite journal |first=D. |last=Tao |title=छवि पुनर्प्राप्ति में वेक्टर मशीन-आधारित प्रासंगिक प्रतिक्रिया के समर्थन के लिए असममित बैगिंग और यादृच्छिक उप-स्थान| journal=IEEE Transactions on Pattern Analysis and Machine Intelligence |volume=28 |issue=7 |pages=1088–99 | year=2006|doi=10.1109/tpami.2006.134 |pmid=16792098 |url=http://eprints.bbk.ac.uk/443/1/Binder1.pdf }}</ref> [[निकटतम पड़ोसी वर्गीकारक]]<ref>{{cite book |first=Tin Kam | last=Ho |title=रैंडम सबस्पेस में निकटतम पड़ोसी| journal=Joint IAPR International Workshops on Statistical Techniques in Pattern Recognition (SPR) and Structural and Syntactic Pattern Recognition (SSPR) | |||
| volume=1451 |year=1998 |pages=640–648 | doi=10.1007/BFb0033288 | series=Lecture Notes in Computer Science | isbn=978-3-540-64858-1 }}</ref><ref>{{cite conference |first=G. | last=Tremblay |title=एक बहुउद्देश्यीय आनुवंशिक एल्गोरिथम का उपयोग करके यादृच्छिक उप-स्थानों में निकटतम पड़ोसी का अनुकूलन| conference=17th International Conference on Pattern Recognition |year=2004 |pages=208–211 | url=http://nguyendangbinh.org/Proceedings/ICPR/2004/DATA/V12_3_08.PDF| doi=10.1109/ICPR.2004.1334060 | isbn=978-0-7695-2128-2 }}</ref> और अन्य प्रकार के क्लासिफायरियर। यह विधि एक-श्रेणी के वर्गीकारकों पर भी लागू होती है।<ref>{{cite journal |first=L. |last=Nanni |title=ऑनलाइन हस्ताक्षर सत्यापन के लिए एक-श्रेणी के क्लासिफायर की प्रायोगिक तुलना|journal=Neurocomputing |year=2006 |volume=69 |issue=7 |pages=869–873 |doi=10.1016/j.neucom.2005.06.007}}</ref><ref>{{Cite book|title=मल्टीपल क्लासिफायर सिस्टम|last=Cheplygina|first=Veronika|last2=Tax|first2=David M. J.|date=2011-06-15|publisher=Springer Berlin Heidelberg|isbn=9783642215568|editor-last=Sansone|editor-first=Carlo|series=Lecture Notes in Computer Science|pages=96–105|language=en|doi=10.1007/978-3-642-21557-5_12|editor-last2=Kittler|editor-first2=Josef|editor-last3=Roli|editor-first3=Fabio}}</ref> यादृच्छिक उपस्थान पद्धति को [[पोर्टफोलियो (वित्त)]] चयन समस्या पर भी लागू किया गया है<ref>{{Cite web|last=Varadi|first=David|date=2013|title=रैंडम सबस्पेस ऑप्टिमाइज़ेशन (RSO)|url=https://cssanalytics.wordpress.com/2013/10/06/random-subspace-optimization-rso/|website=CSS Analytics}}</ref><ref>{{Cite web|last=Gillen|first=Ben|date=2016|title=परिसंपत्ति आवंटन के लिए सबसेट अनुकूलन|url=https://authors.library.caltech.edu/79336/|website=CaltechAUTHORS}}</ref><ref name="ShenWang2017">{{citation| last1 = Shen | first1 = Weiwei | last2 = Wang | first2 = Jun | journal = Proceedings of AAAI Conference on Artificial Intelligence (AAAI2017) | url = http://aaai.org/ocs/index.php/AAAI/AAAI17/paper/view/14443/13945| date = 2017 | title = Portfolio Selection via Subset Resampling}} </ref><ref name="ShenWang2019">{{citation| last1 = Shen | first1 = Weiwei | last2 = Wang | first2 = Bin | last3 = Pu | first3 = Jian|last4 = Wang | first4 = Jun | journal = Proceedings of AAAI Conference on Artificial Intelligence (AAAI2019) | url = https://www.aaai.org/ojs/index.php/AAAI/article/view/3906/3784| date = 2019 | title = The Kelly growth optimal portfolio with ensemble learning}} </ref> जो अनिवार्य रूप से बैगिंग पर आधारित पारंपरिक पुनर्नमूनाकृत कुशल फ्रंटियर के लिए अपनी श्रेष्ठता दिखाती है। | |||
उच्च-आयामी विरल समस्याओं से निपटने के लिए [https://www.jmlr.org/papers/v22/20-600.html यादृच्छिक उपस्थान एन्सेम्बल (RaSE)] नाम का एक रूपरेखा<ref name=":0">{{Cite journal|last=Tian|first=Ye|last2=Feng|first2=Yang|date=2021|title=RaSE: Random Subspace Ensemble Classification|url=http://jmlr.org/papers/v22/20-600.html|journal=Journal of Machine Learning Research|volume=22|issue=45|pages=1–93|issn=1533-7928}}</ref> विकसित किया गया था। आरएएसई यादृच्छिक उप-स्थानों में प्रशिक्षित कमजोर शिक्षार्थियों को दो-परत संरचना और पुनरावृत्त प्रक्रिया के साथ जोड़ता है।<ref>{{Cite web|last=Tian|first=Ye|last2=Feng|first2=Yang|date=2021|title=R Package "RaSEn": Random Subspace Ensemble Classification and Variable Screening|url=https://cran.r-project.org/web/packages/RaSEn/index.html|website=CRAN}}</ref> RaSE को आकर्षक सैद्धांतिक गुणों और व्यावहारिक प्रदर्शनों का आनंद लेने के लिए दिखाया गया है।<ref name=":0" /> | |||
== [[कलन विधि]] == | == [[कलन विधि]] == | ||
निम्नलिखित एल्गोरिथम का उपयोग करके यादृच्छिक सबस्पेस विधि को नियोजित करने वाले मॉडलों का एक समूह बनाया जा सकता है: | निम्नलिखित एल्गोरिथम का उपयोग करके यादृच्छिक सबस्पेस विधि को नियोजित करने वाले मॉडलों का एक समूह बनाया जा सकता है: |
Revision as of 11:50, 13 March 2023
यंत्र अधिगम में यादृच्छिक उपस्थान विधि,[1] विशेषता बैगिंग भी कहा जाता है[2] या फीचर बैगिंग, एक पहनावा सीखने की विधि है जो पूरे फीचर सेट के बजाय फ़ीचर (यंत्र अधिगम) के यादृच्छिक नमूनों पर प्रशिक्षण देकर अनुमानकों के बीच सहसंबंध और निर्भरता को कम करने का प्रयास करती है।जो उन्हें पूरे के अतिरिक्त सुविधाओं के यादृच्छिक नमूनों पर प्रशिक्षित करता है। विशेषता संग्रह।
प्रेरणा
समेकित अधिगम में कई शिक्षार्थियों द्वारा निर्मित मॉडलों को एक समूह में संयोजित करने का प्रयास किया जाता है जो मूल शिक्षार्थियों की तुलना में उत्तम प्रदर्शन करता है। शिक्षार्थियों के संयोजन का एक तरीका बूटस्ट्रैप एकत्रीकरण या बैगिंग है, जो प्रत्येक शिक्षार्थी को प्रशिक्षण बिंदुओं का एक यादृच्छिक रूप से नमूना सबसेट दिखाता है ताकि शिक्षार्थी अलग-अलग सांख्यिकीय मॉडल तैयार कर सकें जो समझदारी से औसत हो सकते हैं।[lower-alpha 1] बैगिंग में, एक नमूना प्रशिक्षण बिंदु पूर्ण प्रशिक्षण सेट से प्रतिस्थापन के साथ नमूनाकरण करता है।
यादृच्छिक उपस्थान विधि बैगिंग के समान है, सिवाय इसके कि फ़ीचर (यंत्र अधिगम) (विशेषताएँ, भविष्यवक्ता, स्वतंत्र चर) प्रत्येक शिक्षार्थी के लिए प्रतिस्थापन के साथ यादृच्छिक रूप से नमूने लिए जाते हैं। अनौपचारिक रूप से, यह व्यक्तिगत शिक्षार्थियों को उन विशेषताओं पर अधिक ध्यान केंद्रित नहीं करने का कारण बनता है जो प्रशिक्षण सेट में अत्यधिक भविष्य कहनेवाला / वर्णनात्मक दिखाई देते हैं, लेकिन उस सेट के बाहर के बिंदुओं के लिए भविष्यवाणी करने में विफल रहते हैं। इस कारण से, यादृच्छिक उप-स्थान उच्च-आयामी समस्याओं के लिए एक आकर्षक विकल्प हैं जहां प्रशिक्षण बिंदुओं की संख्या की तुलना में सुविधाओं की संख्या बहुत बड़ी है, जैसे एफएमआरआई डेटा से सीखना[3] या जीन अभिव्यक्ति डेटा से सीखना।[4]
यादृच्छिक उपस्थान विधि का उपयोग निर्णय वृक्ष सीखने के लिए किया गया है; जब निर्णय वृक्षों की "साधारण" बैगिंग के साथ जोड़ा जाता है, तो परिणामी मॉडल यादृच्छिक वन कहलाते हैं।[5] इसे रैखिक वर्गीकारकों पर भी लागू किया गया है,[6] समर्थन वेक्टर यंत्र,[7] निकटतम पड़ोसी वर्गीकारक[8][9] और अन्य प्रकार के क्लासिफायरियर। यह विधि एक-श्रेणी के वर्गीकारकों पर भी लागू होती है।[10][11] यादृच्छिक उपस्थान पद्धति को पोर्टफोलियो (वित्त) चयन समस्या पर भी लागू किया गया है[12][13][14][15] जो अनिवार्य रूप से बैगिंग पर आधारित पारंपरिक पुनर्नमूनाकृत कुशल फ्रंटियर के लिए अपनी श्रेष्ठता दिखाती है।
उच्च-आयामी विरल समस्याओं से निपटने के लिए यादृच्छिक उपस्थान एन्सेम्बल (RaSE) नाम का एक रूपरेखा[16] विकसित किया गया था। आरएएसई यादृच्छिक उप-स्थानों में प्रशिक्षित कमजोर शिक्षार्थियों को दो-परत संरचना और पुनरावृत्त प्रक्रिया के साथ जोड़ता है।[17] RaSE को आकर्षक सैद्धांतिक गुणों और व्यावहारिक प्रदर्शनों का आनंद लेने के लिए दिखाया गया है।[16]
कलन विधि
निम्नलिखित एल्गोरिथम का उपयोग करके यादृच्छिक सबस्पेस विधि को नियोजित करने वाले मॉडलों का एक समूह बनाया जा सकता है:
- बता दें कि प्रशिक्षण बिंदुओं की संख्या N है और प्रशिक्षण डेटा में सुविधाओं की संख्या D है।
- बता दें कि एल पहनावा में अलग-अलग मॉडलों की संख्या है।
- प्रत्येक व्यक्तिगत मॉडल l के लिए, n चुनेंl (एनl <एन) एल के लिए इनपुट बिंदुओं की संख्या होना। n का केवल एक मान होना आम बात हैl सभी व्यक्तिगत मॉडलों के लिए।
- प्रत्येक व्यक्तिगत मॉडल एल के लिए, डी का चयन करके एक प्रशिक्षण सेट बनाएंl डी से प्रतिस्थापन के साथ सुविधाएँ और मॉडल को प्रशिक्षित करें।
अब, पहनावा मॉडल को एक अनदेखी बिंदु पर लागू करने के लिए, एल व्यक्तिगत मॉडल के आउटपुट को बहुमत से मतदान करके या पश्च संभावनाओं के संयोजन से संयोजित करें।
फुटनोट्स
- ↑ If each learner follows the same, deterministic, algorithm, the models produced are necessarily all the same.
संदर्भ
- ↑ Ho, Tin Kam (1998). "निर्णय वनों के निर्माण के लिए रैंडम सबस्पेस विधि" (PDF). IEEE Transactions on Pattern Analysis and Machine Intelligence. 20 (8): 832–844. doi:10.1109/34.709601. Archived from the original (PDF) on 2019-05-14.
- ↑ Bryll, R. (2003). "Attribute bagging: improving accuracy of classifier ensembles by using random feature subsets". Pattern Recognition. 36 (6): 1291–1302. doi:10.1016/s0031-3203(02)00121-8.
- ↑ Kuncheva, Ludmila; et al. (2010). "fMRI वर्गीकरण के लिए रैंडम सबस्पेस एन्सेम्बल" (PDF). IEEE Transactions on Medical Imaging. 29 (2): 531–542. CiteSeerX 10.1.1.157.1178. doi:10.1109/TMI.2009.2037756.
- ↑ Bertoni, Alberto; Folgieri, Raffaella; Valentini, Giorgio (2005). "सपोर्ट वेक्टर मशीनों के रैंडम सबस्पेस एनसेम्बल के साथ जैव-आणविक कैंसर की भविष्यवाणी" (PDF). Neurocomputing. 63: 535–539. doi:10.1016/j.neucom.2004.07.007. hdl:2434/9370.
- ↑ Ho, Tin Kam (1995). यादृच्छिक निर्णय वन (PDF). Proceedings of the 3rd International Conference on Document Analysis and Recognition, Montreal, QC, 14–16 August 1995. pp. 278–282.
- ↑ Skurichina, Marina (2002). "रैखिक क्लासीफायर के लिए बैगिंग, बूस्टिंग और रैंडम सबस्पेस विधि". Pattern Analysis and Applications. 5 (2): 121–135. doi:10.1007/s100440200011.
- ↑ Tao, D. (2006). "छवि पुनर्प्राप्ति में वेक्टर मशीन-आधारित प्रासंगिक प्रतिक्रिया के समर्थन के लिए असममित बैगिंग और यादृच्छिक उप-स्थान" (PDF). IEEE Transactions on Pattern Analysis and Machine Intelligence. 28 (7): 1088–99. doi:10.1109/tpami.2006.134. PMID 16792098.
- ↑ Ho, Tin Kam (1998). रैंडम सबस्पेस में निकटतम पड़ोसी. pp. 640–648. doi:10.1007/BFb0033288. ISBN 978-3-540-64858-1.
{{cite book}}
:|journal=
ignored (help) - ↑ Tremblay, G. (2004). एक बहुउद्देश्यीय आनुवंशिक एल्गोरिथम का उपयोग करके यादृच्छिक उप-स्थानों में निकटतम पड़ोसी का अनुकूलन (PDF). 17th International Conference on Pattern Recognition. pp. 208–211. doi:10.1109/ICPR.2004.1334060. ISBN 978-0-7695-2128-2.
- ↑ Nanni, L. (2006). "ऑनलाइन हस्ताक्षर सत्यापन के लिए एक-श्रेणी के क्लासिफायर की प्रायोगिक तुलना". Neurocomputing. 69 (7): 869–873. doi:10.1016/j.neucom.2005.06.007.
- ↑ Cheplygina, Veronika; Tax, David M. J. (2011-06-15). Sansone, Carlo; Kittler, Josef; Roli, Fabio (eds.). मल्टीपल क्लासिफायर सिस्टम. Lecture Notes in Computer Science (in English). Springer Berlin Heidelberg. pp. 96–105. doi:10.1007/978-3-642-21557-5_12. ISBN 9783642215568.
- ↑ Varadi, David (2013). "रैंडम सबस्पेस ऑप्टिमाइज़ेशन (RSO)". CSS Analytics.
- ↑ Gillen, Ben (2016). "परिसंपत्ति आवंटन के लिए सबसेट अनुकूलन". CaltechAUTHORS.
- ↑ Shen, Weiwei; Wang, Jun (2017), "Portfolio Selection via Subset Resampling", Proceedings of AAAI Conference on Artificial Intelligence (AAAI2017)
- ↑ Shen, Weiwei; Wang, Bin; Pu, Jian; Wang, Jun (2019), "The Kelly growth optimal portfolio with ensemble learning", Proceedings of AAAI Conference on Artificial Intelligence (AAAI2019)
- ↑ 16.0 16.1 Tian, Ye; Feng, Yang (2021). "RaSE: Random Subspace Ensemble Classification". Journal of Machine Learning Research. 22 (45): 1–93. ISSN 1533-7928.
- ↑ Tian, Ye; Feng, Yang (2021). "R Package "RaSEn": Random Subspace Ensemble Classification and Variable Screening". CRAN.