रैखिक वर्गीकारक: Difference between revisions
(text) |
No edit summary |
||
(2 intermediate revisions by 2 users not shown) | |||
Line 63: | Line 63: | ||
# R. Herbrich, "Learning Kernel Classifiers: Theory and Algorithms," MIT Press, (2001). {{ISBN|0-262-08306-X}} | # R. Herbrich, "Learning Kernel Classifiers: Theory and Algorithms," MIT Press, (2001). {{ISBN|0-262-08306-X}} | ||
{{DEFAULTSORT:Linear Classifier}} | {{DEFAULTSORT:Linear Classifier}} | ||
[[Category:Created On 07/07/2023|Linear Classifier]] | |||
[[Category:Lua-based templates|Linear Classifier]] | |||
[[Category: Machine Translated Page]] | [[Category:Machine Translated Page|Linear Classifier]] | ||
[[Category: | [[Category:Pages with maths render errors|Linear Classifier]] | ||
[[Category:Pages with script errors|Linear Classifier]] | |||
[[Category:Templates Vigyan Ready|Linear Classifier]] | |||
[[Category:Templates that add a tracking category|Linear Classifier]] | |||
[[Category:Templates that generate short descriptions|Linear Classifier]] | |||
[[Category:Templates using TemplateData|Linear Classifier]] | |||
[[Category:वर्गीकरण एल्गोरिदम|Linear Classifier]] | |||
[[Category:सांख्यिकीय वर्गीकरण|Linear Classifier]] |
Latest revision as of 21:04, 15 July 2023
यंत्र अधिगम के क्षेत्र में, सांख्यिकीय वर्गीकरण का लक्ष्य किसी वस्तु की विशेषताओं का उपयोग करके यह पहचानना है कि वह किस वर्ग (या समूह) से संबंधित है। एक रैखिक वर्गीकरणकर्ता विशेषताओं के रैखिक संयोजन के मूल्य के आधार पर वर्गीकरण निर्णय लेकर इसे प्राप्त करता है। किसी वस्तु की विशेषताओं को विशेषता (प्रतिरूप पहचान) के रूप में भी जाना जाता है और सामान्यतः मशीन को एक सदिश में प्रस्तुत किया जाता है जिसे विशेषता सदिश कहा जाता है। ऐसे वर्गीकारक प्रपत्र वर्गीकरण जैसी व्यावहारिक समस्याओं के लिए और सामान्यतः कई चर (विशेषता सदिश) वाली समस्याओं के लिए अच्छी तरह से काम करते हैं, जो प्रशिक्षण और उपयोग में कम समय लेते हुए गैर-रेखीय वर्गीकारक की तुलना में सटीकता के स्तर तक पहुंचते हैं। [1]
परिभाषा
यदि वर्गीकारक में निविष्ट विशेषता सदिश एक वास्तविक संख्या सदिश है, तो निष्पाद अंक है
जहाँ भार का एक वास्तविक सदिश है और f एक फलन है जो दो सदिश के बिंदु गुणनफल को वांछित निष्पाद में परिवर्तित करता है। (दूसरे शब्दों में, एक-रूप या रैखिक कार्यात्मक R पर मानचित्रण है) भार सदिश वर्गीकरण किए गए प्रशिक्षण प्रतिरूपों के एक सम्मुच्चय से सीखा जाता है। प्रायः f एक 'प्रभावसीमा फलन' होता है, जो सभी मानों को आरेख करता है एक निश्चित सीमा से ऊपर प्रथम श्रेणी के लिए और अन्य सभी मान द्वितीय श्रेणी के लिए; जैसे,
अधिलेख T पक्षांतर को इंगित करता है और एक अदिश सीमा है। अधिक जटिल f यह संभावना दे सकता है कि कोई वस्तु एक निश्चित वर्ग से संबंधित है।
दो-वर्ग वर्गीकरण समस्या के लिए, कोई एक अधिसमतल के साथ उच्च-आयामी निविष्ट स्थान को विभाजित करने के रूप में एक रैखिक वर्गीकारक के संचालन की कल्पना कर सकता है: अधिसमतल के एक तरफ के सभी बिंदुओं को 'यस' के रूप में वर्गीकृत किया गया है, जबकि अन्य को नहीं के रूप में वर्गीकृत किया गया है।
एक रैखिक वर्गीकारक का उपयोग प्रायः उन स्थितियों में किया जाता है जहां वर्गीकरण की गति एक विषय है, क्योंकि यह प्रायः सबसे तीव्र वर्गीकारक होता है, विशेषतः जब विरल है। इसके अतिरिक्त, आयामों की संख्या होने पर रैखिक वर्गीकारक प्रायः बहुत अच्छी तरह से काम करते हैं जिसमें प्रपत्र वर्गीकरण की तरह बड़ा है, जहां प्रत्येक तत्व सामान्यतः किसी प्रपत्र में किसी शब्द के आने की संख्या होती है (प्रपत्र-अवधि आव्यूह देखें)। ऐसी स्तिथियों में, वर्गीकारक को अच्छी तरह से नियमितीकरण (यंत्र अधिगम) होना चाहिए।
उत्पादक प्रतिरूप बनाम प्रेरक प्रतिरूप
रैखिक वर्गीकारक के मापदंडों को निर्धारित करने के लिए तरीकों के दो व्यापक वर्ग हैं। वे उत्पादक प्रतिरूप और प्रेरक प्रतिरूप हो सकते हैं। [2][3] पहले प्रतिरूप के संयुक्त संभाव्यता वितरण के तरीके, जबकि बाद वाले प्रतिरूप के तरीके सशर्त संभाव्यता वितरण है। ऐसे कलन विधि के उदाहरणों में सम्मिलित हैं:
- रैखिक विभेदक विश्लेषण (एलडीए) - सामान्य वितरण सशर्त घनत्व प्रतिरूप मानता है।
- बहुपदी या बहुचर बर्नौली वृत्तांत प्रतिरूप के साथ नाइव बेयस वर्गीकारक है।
तरीकों के दूसरे सम्मुच्चय में प्रेरक प्रतिरूप सम्मिलित हैं, जो प्रशिक्षण सम्मुच्चय पर निष्पाद की गुणवत्ता को अधिकतम करने का प्रयास करते हैं। प्रशिक्षण लागत फलन में अतिरिक्त स्तिथियाँ अंतिम प्रतिरूप का नियमितीकरण (यंत्र अधिगम) आसानी से कर सकती हैं। रैखिक वर्गीकरणकर्ताओं के प्रेरक प्रशिक्षण के उदाहरणों में सम्मिलित हैं:
- संभार तन्त्र परावर्तन - अधिकतम संभावना अनुमान यह मानते हुए कि मनाया गया प्रशिक्षण सम्मुच्चय एक द्विपद प्रतिरूप द्वारा उत्पन्न किया गया था जो वर्गीकारक के निष्पाद पर निर्भर करता है।
- परसेप्ट्रॉन- एक कलन विधि जो प्रशिक्षण सम्मुच्चय में आने वाली सभी त्रुटियों को ठीक करने का प्रयास करता है।
- फिशर का रैखिक विभेदक विश्लेषण - एक कलन विधि (एलडीए से अलग) जो किसी भी अन्य धारणा के बिना, वर्ग के बीच बिखराव और वर्ग के भीतर बिखराव के अनुपात को अधिकतम करता है। यह संक्षेप में युग्मक वर्गीकरण के लिए आयामीता में कमी की एक विधि है।[4]
- सदिश यंत्र समर्थन - एक कलन विधि जो निर्णय अधिसमतल और प्रशिक्षण सम्मुच्चय में उदाहरणों के बीच पार्श्व (मशीन लर्निंग) को अधिकतम करता है।
टिप्पणी: अपने नाम के होने पर भी, एलडीए इस वर्गीकरण में प्रेरक प्रतिरूप के वर्ग से संबंधित नहीं है। हालाँकि, इसका नाम तब समझ में आता है जब हम एलडीए की तुलना अन्य मुख्य रैखिक आयामी कमी कलन विधि: प्रमुख घटक विश्लेषण (पीसीए) से करते हैं। एलडीए एक पर्यवेक्षित शिक्षण कलन विधि है जो आंकड़ों के वर्गीकरण का उपयोग करता है, जबकि पीसीए एक असुरक्षित शिक्षण कलन विधि है जो वर्गीकरणों को अनदेखा करता है। संक्षेप में कहें तो नाम एक ऐतिहासिक कलाकृति है। [5]: 117
प्रेरक प्रशिक्षण प्रायः सशर्त घनत्व कार्यों के प्रतिरूपण की तुलना में अधिक सटीकता प्रदान करता है। हालाँकि, सशर्त घनत्व प्रतिरूप के साथ लापता आंकड़ों को संभालना प्रायः आसान होता है।
ऊपर सूचीबद्ध सभी लीनियर वर्गीकारक कलन विधि को एक अलग निविष्ट दिक् पर काम करने वाले गैर-रेखीय कलन विधि में कर्नेल चाल का उपयोग करके परिवर्तित किया जा सकता है।
प्रेरक प्रशिक्षण
रैखिक वर्गीकारक का प्रेरक प्रशिक्षण सामान्यतः एक अनुकूलन कलन विधि के माध्यम से पर्यवेक्षित शिक्षण तरीके से आगे बढ़ता है, जिसे वांछित निष्पाद और एक हानि फलन के साथ एक प्रशिक्षण सम्मुच्चय दिया जाता है जो वर्गीकारक के निष्पाद और वांछित निष्पाद के बीच विसंगति को मापता है। इस प्रकार, सीखने का कलन विधि प्ररूप की अनुकूलन समस्या को हल करता है [1]
जहाँ
- w वर्गीकारक मापदण्ड का एक सदिश है,
- L(yi, wTxi) एक हानि फलन है जो वर्गक की भविष्यवाणी और i'वें प्रशिक्षण उदाहरण के लिए सही निष्पाद yi के बीच विसंगति को मापता है,
- R(w) एक नियमितीकरण (गणित) फलन है जो मापदण्ड को बहुत बड़ा होने (ओवरफिटिंग का कारण बनने) से रोकता है, और
- C एक अदिश स्थिरांक है (सीखने के कलन विधि के उपयोगकर्ता द्वारा निर्धारित) जो नियमितीकरण और हानि फलन के बीच संतुलन को नियंत्रित करता है।
लोकप्रिय हानि कार्यों में काज हानि (रैखिक एसवीएम के लिए) और अभिलेख हानि (रैखिक तर्कगणित परावर्तन के लिए) सम्मिलित हैं। यदि नियमितीकरण कार्य R उत्तल फलन है, तो उपरोक्त एक उत्तल अनुकूलन है। [1] ऐसी समस्याओं को हल करने के लिए कई कलन विधि उपस्थित हैं; रैखिक वर्गीकरण के लिए लोकप्रिय तरीकों में (प्रसंभाव्य) अनुप्रवण उद्भव, एल-बीएफजीएस, समन्वय वंश और न्यूटन विधियां सम्मिलित हैं।
यह भी देखें
- पश्चप्रचार
- रेखीय प्रतिगमन
- परसेप्ट्रॉन
- द्विघात वर्गीकारक
- समर्थन सदिश मशीन
- विनो (कलन विधि)
टिप्पणियाँ
- ↑ 1.0 1.1 1.2 Guo-Xun Yuan; Chia-Hua Ho; Chih-Jen Lin (2012). "बड़े पैमाने पर रैखिक वर्गीकरण की हालिया प्रगति" (PDF). Proc. IEEE. 100 (9).
- ↑ T. Mitchell, Generative and Discriminative Classifiers: Naive Bayes and Logistic Regression. Draft Version, 2005
- ↑ A. Y. Ng and M. I. Jordan. On Discriminative vs. Generative Classifiers: A comparison of logistic regression and Naive Bayes. in NIPS 14, 2002.
- ↑ R.O. Duda, P.E. Hart, D.G. Stork, "Pattern Classification", Wiley, (2001). ISBN 0-471-05669-3
- ↑ R.O. Duda, P.E. Hart, D.G. Stork, "Pattern Classification", Wiley, (2001). ISBN 0-471-05669-3
अग्रिम पठन
- Y. Yang, X. Liu, "A re-examination of text categorization", Proc. ACM SIGIR Conference, pp. 42–49, (1999). paper @ citeseer
- R. Herbrich, "Learning Kernel Classifiers: Theory and Algorithms," MIT Press, (2001). ISBN 0-262-08306-X