रैखिक वर्गीकारक: Difference between revisions

From Vigyanwiki
(Created page with "{{short description|Statistical classification in machine learning}} यंत्र अधिगम के क्षेत्र में, सांख्यिक...")
 
(text)
Line 1: Line 1:
{{short description|Statistical classification in machine learning}}
{{short description|Statistical classification in machine learning}}
[[ यंत्र अधिगम ]] के क्षेत्र में, [[सांख्यिकीय वर्गीकरण]] का लक्ष्य किसी वस्तु की विशेषताओं का उपयोग करके यह पहचानना है कि वह किस वर्ग (या समूह) से संबंधित है। एक रैखिक वर्गीकरणकर्ता विशेषताओं के [[रैखिक संयोजन]] के मूल्य के आधार पर वर्गीकरण निर्णय लेकर इसे प्राप्त करता है। किसी वस्तु की विशेषताओं को फीचर्स (पैटर्न पहचान) के रूप में भी जाना जाता है और आमतौर पर मशीन को एक वेक्टर में प्रस्तुत किया जाता है जिसे [[ फ़ीचर वेक्टर ]] कहा जाता है। ऐसे क्लासिफायर [[दस्तावेज़ वर्गीकरण]] जैसी व्यावहारिक समस्याओं के लिए और आम तौर पर कई चर (फीचर वेक्टर) वाली समस्याओं के लिए अच्छी तरह से काम करते हैं, जो प्रशिक्षण और उपयोग में कम समय लेते हुए गैर-रेखीय क्लासिफायर की तुलना में सटीकता के स्तर तक पहुंचते हैं।{{r|ieee}}
[[ यंत्र अधिगम |यंत्र अधिगम]] के क्षेत्र में, [[सांख्यिकीय वर्गीकरण]] का लक्ष्य किसी वस्तु की विशेषताओं का उपयोग करके यह पहचानना है कि वह किस वर्ग (या समूह) से संबंधित है। एक रैखिक वर्गीकरणकर्ता विशेषताओं के [[रैखिक संयोजन]] के मूल्य के आधार पर वर्गीकरण निर्णय लेकर इसे प्राप्त करता है। किसी वस्तु की विशेषताओं को विशेषता (प्रतिरूप पहचान) के रूप में भी जाना जाता है और सामान्यतः मशीन को एक सदिश में प्रस्तुत किया जाता है जिसे [[ फ़ीचर वेक्टर |विशेषता सदिश]] कहा जाता है। ऐसे वर्गीकारक [[दस्तावेज़ वर्गीकरण|प्रपत्र वर्गीकरण]] जैसी व्यावहारिक समस्याओं के लिए और सामान्यतः कई चर (विशेषता सदिश) वाली समस्याओं के लिए अच्छी तरह से काम करते हैं, जो प्रशिक्षण और उपयोग में कम समय लेते हुए गैर-रेखीय वर्गीकारक की तुलना में सटीकता के स्तर तक पहुंचते हैं। {{r|ieee}}


== परिभाषा ==
== परिभाषा ==
[[Image:Svm separating hyperplanes.png|thumb|right|इस मामले में, ठोस और खाली बिंदुओं को किसी भी संख्या में रैखिक क्लासिफायर द्वारा सही ढंग से वर्गीकृत किया जा सकता है। H1 (नीला) उन्हें सही ढंग से वर्गीकृत करता है, जैसा कि H2 (लाल) करता है। H2 को इस अर्थ में बेहतर माना जा सकता है कि यह दोनों समूहों से सबसे दूर भी है।
[[Image:Svm separating hyperplanes.png|thumb|right|इस स्तिथि में, ठोस और खाली बिंदुओं को किसी भी संख्या में रैखिक वर्गीकारक द्वारा सही ढंग से वर्गीकृत किया जा सकता है। H1 (नीला) उन्हें सही ढंग से वर्गीकृत करता है, जैसा कि H2 (लाल) करता है। H2 को इस अर्थ में बेहतर माना जा सकता है कि यह दोनों समूहों से सबसे दूर भी है। H3 (हरा) बिंदुओं को सही ढंग से वर्गीकृत करने में विफल रहता है।]]यदि वर्गीकारक में निविष्ट विशेषता सदिश एक [[वास्तविक संख्या]] सदिश <math>\vec x</math> है, तो निष्पाद अंक है
H3 (हरा) बिंदुओं को सही ढंग से वर्गीकृत करने में विफल रहता है।]]यदि क्लासिफायरियर में इनपुट फीचर वेक्टर एक [[वास्तविक संख्या]] वेक्टर है <math>\vec x</math>, तो आउटपुट स्कोर है


:<math>y = f(\vec{w}\cdot\vec{x}) = f\left(\sum_j w_j x_j\right),</math>
:<math>y = f(\vec{w}\cdot\vec{x}) = f\left(\sum_j w_j x_j\right),</math>
कहाँ <math>\vec w </math> वज़न का एक वास्तविक वेक्टर है और f एक फ़ंक्शन है जो दो वैक्टरों के [[डॉट उत्पाद]] को वांछित आउटपुट में परिवर्तित करता है। (दूसरे शब्दों में, <math>\vec{w}</math> एक-रूप या [[रैखिक कार्यात्मक]] मानचित्रण है <math>\vec x</math> आर पर) वजन वेक्टर <math>\vec w</math> लेबल किए गए प्रशिक्षण नमूनों के एक सेट से सीखा जाता है। अक्सर f एक 'थ्रेसहोल्ड फ़ंक्शन' होता है, जो सभी मानों को मैप करता है <math>\vec{w}\cdot\vec{x}</math> एक निश्चित सीमा से ऊपर प्रथम श्रेणी के लिए और अन्य सभी मान द्वितीय श्रेणी के लिए; जैसे,
जहाँ <math>\vec w </math> भार का एक वास्तविक सदिश है और f एक फलन है जो दो सदिश के बिंदु गुणनफल को वांछित निष्पाद में परिवर्तित करता है। (दूसरे शब्दों में, <math>\vec{w}</math> एक-रूप या [[रैखिक कार्यात्मक]] <math>\vec x</math> R पर मानचित्रण है) भार सदिश <math>\vec w</math> वर्गीकरण किए गए प्रशिक्षण प्रतिरूपों के एक सम्मुच्चय से सीखा जाता है। प्रायः f एक 'प्रभावसीमा फलन' होता है, जो सभी मानों को आरेख करता है <math>\vec{w}\cdot\vec{x}</math> एक निश्चित सीमा से ऊपर प्रथम श्रेणी के लिए और अन्य सभी मान द्वितीय श्रेणी के लिए; जैसे,


:<math>
:<math>
f(\mathbf{x}) = \begin{cases}1 & \text{if }\ \mathbf{w}^T \cdot \mathbf{x} > \theta,\\0 & \text{otherwise}\end{cases}
f(\mathbf{x}) = \begin{cases}1 & \text{if }\ \mathbf{w}^T \cdot \mathbf{x} > \theta,\\0 & \text{otherwise}\end{cases}
</math>
</math>
सुपरस्क्रिप्ट टी ट्रांसपोज़ और को इंगित करता है <math> \theta </math> एक अदिश सीमा है. अधिक जटिल f यह संभावना दे सकता है कि कोई वस्तु एक निश्चित वर्ग से संबंधित है।
अधिलेख T पक्षांतर को इंगित करता है और <math> \theta </math> एक अदिश सीमा है। अधिक जटिल f यह संभावना दे सकता है कि कोई वस्तु एक निश्चित वर्ग से संबंधित है।


दो-वर्ग वर्गीकरण समस्या के लिए, कोई एक [[हाइपरप्लेन]] के साथ उच्च-आयामी अंतरिक्ष | उच्च-आयामी इनपुट स्थान को विभाजित करने के रूप में एक रैखिक क्लासिफायरियर के संचालन की कल्पना कर सकता है: हाइपरप्लेन के एक तरफ के सभी बिंदुओं को हां के रूप में वर्गीकृत किया गया है, जबकि अन्य को नहीं के रूप में वर्गीकृत किया गया है।
दो-वर्ग वर्गीकरण समस्या के लिए, कोई एक [[हाइपरप्लेन|अधिसमतल]] के साथ उच्च-आयामी निविष्ट स्थान को विभाजित करने के रूप में एक रैखिक वर्गीकारक के संचालन की कल्पना कर सकता है: अधिसमतल के एक तरफ के सभी बिंदुओं को 'यस' के रूप में वर्गीकृत किया गया है, जबकि अन्य को नहीं के रूप में वर्गीकृत किया गया है।


एक रैखिक क्लासिफायर का उपयोग अक्सर उन स्थितियों में किया जाता है जहां वर्गीकरण की गति एक मुद्दा है, क्योंकि यह अक्सर सबसे तेज़ क्लासिफायर होता है, खासकर जब <math>\vec x</math> विरल है. इसके अलावा, आयामों की संख्या होने पर रैखिक क्लासिफायर अक्सर बहुत अच्छी तरह से काम करते हैं <math>\vec x</math> दस्तावेज़ वर्गीकरण की तरह, बड़ा है, जहां प्रत्येक तत्व <math>\vec x</math> आमतौर पर किसी दस्तावेज़ में किसी शब्द के आने की संख्या होती है (दस्तावेज़-टर्म मैट्रिक्स देखें)। ऐसे मामलों में, क्लासिफायर को अच्छी तरह से [[नियमितीकरण (मशीन लर्निंग)]] होना चाहिए।
एक रैखिक वर्गीकारक का उपयोग प्रायः उन स्थितियों में किया जाता है जहां वर्गीकरण की गति एक विषय है, क्योंकि यह प्रायः सबसे तीव्र वर्गीकारक होता है, विशेषतः जब <math>\vec x</math> विरल है। इसके अतिरिक्त, आयामों की संख्या होने पर रैखिक वर्गीकारक प्रायः बहुत अच्छी तरह से काम करते हैं जिसमें <math>\vec x</math> प्रपत्र वर्गीकरण की तरह बड़ा है, जहां प्रत्येक तत्व <math>\vec x</math> सामान्यतः किसी प्रपत्र में किसी शब्द के आने की संख्या होती है (प्रपत्र-अवधि आव्यूह देखें)। ऐसी स्तिथियों में, वर्गीकारक को अच्छी तरह से [[नियमितीकरण (मशीन लर्निंग)|नियमितीकरण (यंत्र अधिगम)]] होना चाहिए।


==जनरेटिव मॉडल बनाम भेदभावपूर्ण मॉडल==
==उत्पादक प्रतिरूप बनाम प्रेरक प्रतिरूप==
रैखिक क्लासिफायरियर के मापदंडों को निर्धारित करने के लिए तरीकों के दो व्यापक वर्ग हैं <math>\vec w</math>. वे [[जनरेटिव मॉडल]] और [[ भेदभावपूर्ण मॉडल ]] मॉडल हो सकते हैं।<ref>T. Mitchell, [https://www.cs.cmu.edu/~tom/mlbook/NBayesLogReg.pdf Generative and Discriminative Classifiers: Naive Bayes and Logistic Regression.] Draft Version, 2005</ref><ref>A. Y. Ng and M. I. Jordan. [http://www.cs.berkeley.edu/~jordan/papers/ng-jordan-nips01.ps On Discriminative vs. Generative Classifiers: A comparison of logistic regression and Naive Bayes.]  in NIPS 14, 2002.</ref> पहले मॉडल के [[संयुक्त संभाव्यता वितरण]] के तरीके, जबकि बाद वाले मॉडल के तरीके [[सशर्त संभाव्यता वितरण]] <math>P({\rm class}|\vec x)</math>. ऐसे एल्गोरिदम के उदाहरणों में शामिल हैं:
रैखिक वर्गीकारक के मापदंडों को निर्धारित करने के लिए तरीकों के दो व्यापक वर्ग <math>\vec w</math> हैं। वे [[जनरेटिव मॉडल|उत्पादक प्रतिरूप]] और [[ भेदभावपूर्ण मॉडल |प्रेरक प्रतिरूप]] हो सकते हैं। <ref>T. Mitchell, [https://www.cs.cmu.edu/~tom/mlbook/NBayesLogReg.pdf Generative and Discriminative Classifiers: Naive Bayes and Logistic Regression.] Draft Version, 2005</ref><ref>A. Y. Ng and M. I. Jordan. [http://www.cs.berkeley.edu/~jordan/papers/ng-jordan-nips01.ps On Discriminative vs. Generative Classifiers: A comparison of logistic regression and Naive Bayes.]  in NIPS 14, 2002.</ref> पहले प्रतिरूप के [[संयुक्त संभाव्यता वितरण]] के तरीके, जबकि बाद वाले प्रतिरूप के तरीके [[सशर्त संभाव्यता वितरण]] <math>P({\rm class}|\vec x)</math> है। ऐसे कलन विधि के उदाहरणों में सम्मिलित हैं:
* [[रैखिक विभेदक विश्लेषण]] (एलडीए) - [[सामान्य वितरण]] सशर्त घनत्व मॉडल मानता है
* [[रैखिक विभेदक विश्लेषण]] (एलडीए) - [[सामान्य वितरण]] सशर्त घनत्व प्रतिरूप मानता है।
* मल्टीनोमियल या मल्टीवेरिएट बर्नौली इवेंट मॉडल के साथ [[नाइव बेयस क्लासिफायरियर]]
* बहुपदी या बहुचर बर्नौली वृत्तांत प्रतिरूप के साथ [[नाइव बेयस क्लासिफायरियर|नाइव बेयस वर्गीकारक]] है।


तरीकों के दूसरे सेट में भेदभावपूर्ण मॉडल शामिल हैं, जो [[प्रशिक्षण सेट]] पर आउटपुट की गुणवत्ता को अधिकतम करने का प्रयास करते हैं। प्रशिक्षण लागत फ़ंक्शन में अतिरिक्त शर्तें अंतिम मॉडल का नियमितीकरण (मशीन लर्निंग) आसानी से कर सकती हैं। रैखिक वर्गीकरणकर्ताओं के भेदभावपूर्ण प्रशिक्षण के उदाहरणों में शामिल हैं:
तरीकों के दूसरे सम्मुच्चय में प्रेरक प्रतिरूप सम्मिलित हैं, जो [[प्रशिक्षण सेट|प्रशिक्षण सम्मुच्चय]] पर निष्पाद की गुणवत्ता को अधिकतम करने का प्रयास करते हैं। प्रशिक्षण लागत फलन में अतिरिक्त स्तिथियाँ अंतिम प्रतिरूप का नियमितीकरण (यंत्र अधिगम) आसानी से कर सकती हैं। रैखिक वर्गीकरणकर्ताओं के प्रेरक प्रशिक्षण के उदाहरणों में सम्मिलित हैं:
* [[ संभार तन्त्र परावर्तन ]]-अधिकतम संभावना अनुमान <math>\vec w</math> यह मानते हुए कि मनाया गया प्रशिक्षण सेट एक द्विपद मॉडल द्वारा उत्पन्न किया गया था जो क्लासिफायरियर के आउटपुट पर निर्भर करता है।
* [[ संभार तन्त्र परावर्तन |संभार तन्त्र परावर्तन]] - अधिकतम संभावना अनुमान <math>\vec w</math> यह मानते हुए कि मनाया गया प्रशिक्षण सम्मुच्चय एक द्विपद प्रतिरूप द्वारा उत्पन्न किया गया था जो वर्गीकारक के निष्पाद पर निर्भर करता है।
* [[परसेप्ट्रॉन]]-एक एल्गोरिदम जो प्रशिक्षण सेट में आने वाली सभी त्रुटियों को ठीक करने का प्रयास करता है
* [[परसेप्ट्रॉन]]- एक कलन विधि जो प्रशिक्षण सम्मुच्चय में आने वाली सभी त्रुटियों को ठीक करने का प्रयास करता है।
* फिशर का रैखिक विभेदक विश्लेषण - एक एल्गोरिथ्म (एलडीए से अलग) जो किसी भी अन्य धारणा के बिना, वर्ग के बीच बिखराव और वर्ग के भीतर बिखराव के अनुपात को अधिकतम करता है। यह संक्षेप में बाइनरी वर्गीकरण के लिए आयामीता में कमी की एक विधि है। <ref>R.O. Duda, P.E. Hart, D.G. Stork, "Pattern Classification", Wiley, (2001). {{ISBN|0-471-05669-3}}</ref>
* फिशर का रैखिक विभेदक विश्लेषण - एक कलन विधि (एलडीए से अलग) जो किसी भी अन्य धारणा के बिना, वर्ग के बीच बिखराव और वर्ग के भीतर बिखराव के अनुपात को अधिकतम करता है। यह संक्षेप में युग्मक वर्गीकरण के लिए आयामीता में कमी की एक विधि है।<ref>R.O. Duda, P.E. Hart, D.G. Stork, "Pattern Classification", Wiley, (2001). {{ISBN|0-471-05669-3}}</ref>
[[समर्थन वेक्टर यंत्र]] का समर्थन करें - एक एल्गोरिदम जो निर्णय हाइपरप्लेन और प्रशिक्षण सेट में उदाहरणों के बीच [[मार्जिन (मशीन लर्निंग)]] को अधिकतम करता है।
*[[समर्थन वेक्टर यंत्र|सदिश यंत्र]] [[समर्थन वेक्टर यंत्र|समर्थन]] - एक कलन विधि जो निर्णय अधिसमतल और प्रशिक्षण सम्मुच्चय में उदाहरणों के बीच [[मार्जिन (मशीन लर्निंग)|पार्श्व (मशीन लर्निंग)]] को अधिकतम करता है।


नोट: अपने नाम के बावजूद, एलडीए इस वर्गीकरण में भेदभावपूर्ण मॉडल के वर्ग से संबंधित नहीं है। हालाँकि, इसका नाम तब समझ में आता है जब हम एलडीए की तुलना अन्य मुख्य रैखिक आयामी कमी एल्गोरिथ्म से करते हैं: [[प्रमुख घटक विश्लेषण]] (पीसीए)। एलडीए एक पर्यवेक्षित शिक्षण एल्गोरिदम है जो डेटा के लेबल का उपयोग करता है, जबकि पीसीए एक असुरक्षित शिक्षण एल्गोरिदम है जो लेबलों को अनदेखा करता है। संक्षेप में कहें तो नाम एक ऐतिहासिक कलाकृति है।<ref>R.O. Duda, P.E. Hart, D.G. Stork, "Pattern Classification", Wiley, (2001). {{ISBN|0-471-05669-3}}</ref>{{rp|117}}


भेदभावपूर्ण प्रशिक्षण अक्सर सशर्त घनत्व कार्यों के मॉडलिंग की तुलना में अधिक सटीकता प्रदान करता है{{Citation needed|date=October 2017}}. हालाँकि, सशर्त घनत्व मॉडल के साथ लापता डेटा को संभालना अक्सर आसान होता है{{Citation needed|date=October 2017}}.
टिप्पणी: अपने नाम के होने पर भी, एलडीए इस वर्गीकरण में प्रेरक प्रतिरूप के वर्ग से संबंधित नहीं है। हालाँकि, इसका नाम तब समझ में आता है जब हम एलडीए की तुलना अन्य मुख्य रैखिक आयामी कमी कलन विधि: प्रमुख घटक विश्लेषण (पीसीए) से करते हैं। एलडीए एक पर्यवेक्षित शिक्षण कलन विधि है जो आंकड़ों के वर्गीकरण का उपयोग करता है, जबकि पीसीए एक असुरक्षित शिक्षण कलन विधि है जो वर्गीकरणों को अनदेखा करता है। संक्षेप में कहें तो नाम एक ऐतिहासिक कलाकृति है। <ref>R.O. Duda, P.E. Hart, D.G. Stork, "Pattern Classification", Wiley, (2001). {{ISBN|0-471-05669-3}}</ref>{{rp|117}}


ऊपर सूचीबद्ध सभी लीनियर क्लासिफायर एल्गोरिदम को एक अलग इनपुट स्पेस पर काम करने वाले गैर-रेखीय एल्गोरिदम में परिवर्तित किया जा सकता है <math>\varphi(\vec x)</math>, [[कर्नेल चाल]] का उपयोग करके।
प्रेरक प्रशिक्षण प्रायः सशर्त घनत्व कार्यों के प्रतिरूपण की तुलना में अधिक सटीकता प्रदान करता है। हालाँकि, सशर्त घनत्व प्रतिरूप के साथ लापता आंकड़ों को संभालना प्रायः आसान होता है।


===भेदभावपूर्ण प्रशिक्षण===
ऊपर सूचीबद्ध सभी लीनियर वर्गीकारक कलन विधि को एक अलग निविष्ट दिक् पर काम करने वाले गैर-रेखीय कलन विधि <math>\varphi(\vec x)</math> में [[कर्नेल चाल]] का उपयोग करके परिवर्तित किया जा सकता है।
रैखिक क्लासिफायर का भेदभावपूर्ण प्रशिक्षण आमतौर पर एक अनुकूलन एल्गोरिदम के माध्यम से पर्यवेक्षित शिक्षण तरीके से आगे बढ़ता है, जिसे वांछित आउटपुट और एक हानि फ़ंक्शन के साथ एक प्रशिक्षण सेट दिया जाता है जो क्लासिफायर के आउटपुट और वांछित आउटपुट के बीच विसंगति को मापता है। इस प्रकार, सीखने का एल्गोरिदम फॉर्म की अनुकूलन समस्या को हल करता है<ref name="ieee">{{cite journal |author1=Guo-Xun Yuan |author2=Chia-Hua Ho |author3=Chih-Jen Lin |title=बड़े पैमाने पर रैखिक वर्गीकरण की हालिया प्रगति|journal=Proc. IEEE |volume=100 |issue=9 |year=2012|url=http://dmkd.cs.vt.edu/TUTORIAL/Bigdata/Papers/IEEE12.pdf}}</ref>
 
===प्रेरक प्रशिक्षण===
रैखिक वर्गीकारक का प्रेरक प्रशिक्षण सामान्यतः एक अनुकूलन कलन विधि के माध्यम से पर्यवेक्षित शिक्षण तरीके से आगे बढ़ता है, जिसे वांछित निष्पाद और एक हानि फलन के साथ एक प्रशिक्षण सम्मुच्चय दिया जाता है जो वर्गीकारक के निष्पाद और वांछित निष्पाद के बीच विसंगति को मापता है। इस प्रकार, सीखने का कलन विधि प्ररूप की अनुकूलन समस्या को हल करता है <ref name="ieee">{{cite journal |author1=Guo-Xun Yuan |author2=Chia-Hua Ho |author3=Chih-Jen Lin |title=बड़े पैमाने पर रैखिक वर्गीकरण की हालिया प्रगति|journal=Proc. IEEE |volume=100 |issue=9 |year=2012|url=http://dmkd.cs.vt.edu/TUTORIAL/Bigdata/Papers/IEEE12.pdf}}</ref>
:<math>\underset{\mathbf{w}}{\arg\min} \;R(\mathbf{w}) + C \sum_{i=1}^N L(y_i, \mathbf{w}^\mathsf{T} \mathbf{x}_i)</math>
:<math>\underset{\mathbf{w}}{\arg\min} \;R(\mathbf{w}) + C \sum_{i=1}^N L(y_i, \mathbf{w}^\mathsf{T} \mathbf{x}_i)</math>
कहाँ
जहाँ


* {{math|'''w'''}} क्लासिफायर पैरामीटर्स का एक वेक्टर है,
* {{math|'''w'''}} वर्गीकारक मापदण्ड का एक सदिश है,
* {{math|''L''(''y<sub>i</sub>'', '''w'''<sup>T</sup>'''x'''<sub>''i''</sub>)}} एक हानि फ़ंक्शन है जो क्लासिफायरियर की भविष्यवाणी और वास्तविक आउटपुट के बीच विसंगति को मापता है {{mvar|y<sub>i</sub>}} के लिए {{mvar|i}}'वां प्रशिक्षण उदाहरण,
* {{math|''L''(''y<sub>i</sub>'', '''w'''<sup>T</sup>'''x'''<sub>''i''</sub>)}} एक हानि फलन है जो वर्गक की भविष्यवाणी और {{mvar|i}}'वें प्रशिक्षण उदाहरण के लिए सही निष्पाद {{mvar|y<sub>i</sub>}} के बीच विसंगति को मापता है,
* {{math|''R''('''w''')}} एक [[नियमितीकरण (गणित)]] फ़ंक्शन है जो पैरामीटर को बहुत बड़ा होने ([[ओवरफिटिंग]] का कारण बनने) से रोकता है, और
* {{math|''R''('''w''')}} एक [[नियमितीकरण (गणित)]] फलन है जो मापदण्ड को बहुत बड़ा होने (ओवरफिटिंग का कारण बनने) से रोकता है, और
* {{mvar|C}} एक अदिश स्थिरांक है (सीखने के एल्गोरिदम के उपयोगकर्ता द्वारा निर्धारित) जो नियमितीकरण और हानि फ़ंक्शन के बीच संतुलन को नियंत्रित करता है।
* {{mvar|C}} एक अदिश स्थिरांक है (सीखने के कलन विधि के उपयोगकर्ता द्वारा निर्धारित) जो नियमितीकरण और हानि फलन के बीच संतुलन को नियंत्रित करता है।


लोकप्रिय हानि कार्यों में [[काज हानि]] (रैखिक एसवीएम के लिए) और [[लॉग हानि]] (रैखिक लॉजिस्टिक रिग्रेशन के लिए) शामिल हैं। यदि नियमितीकरण कार्य {{mvar|R}} उत्तल फ़ंक्शन है, तो उपरोक्त एक [[उत्तल अनुकूलन]] है।{{r|ieee}} ऐसी समस्याओं को हल करने के लिए कई एल्गोरिदम मौजूद हैं; रैखिक वर्गीकरण के लिए लोकप्रिय तरीकों में (स्टोकेस्टिक [[ ढतला हुआ वंश ]]) ग्रेडिएंट डिसेंट, [[एल-बीएफजीएस]], [[समन्वय वंश]] और [[न्यूटन विधि]]यां शामिल हैं।
लोकप्रिय हानि कार्यों में [[काज हानि]] (रैखिक एसवीएम के लिए) और [[लॉग हानि|अभिलेख हानि]] (रैखिक तर्कगणित परावर्तन के लिए) सम्मिलित हैं। यदि नियमितीकरण कार्य {{mvar|R}} उत्तल फलन है, तो उपरोक्त एक [[उत्तल अनुकूलन]] है। {{r|ieee}} ऐसी समस्याओं को हल करने के लिए कई कलन विधि उपस्थित हैं; रैखिक वर्गीकरण के लिए लोकप्रिय तरीकों में (प्रसंभाव्य) अनुप्रवण उद्भव, [[एल-बीएफजीएस]], [[समन्वय वंश]] और [[न्यूटन विधि]]यां सम्मिलित हैं।


== यह भी देखें ==
== यह भी देखें ==
* [[ पश्चप्रचार ]]
* [[ पश्चप्रचार |पश्चप्रचार]]
* [[रेखीय प्रतिगमन]]
* [[रेखीय प्रतिगमन]]
* परसेप्ट्रॉन
* परसेप्ट्रॉन
* द्विघात वर्गीकारक
* द्विघात वर्गीकारक
* [[समर्थन वेक्टर मशीन]]
* [[समर्थन वेक्टर मशीन|समर्थन सदिश मशीन]]
* [[विनो (एल्गोरिदम)]]
* [[विनो (एल्गोरिदम)|विनो (कलन विधि)]]


== टिप्पणियाँ ==
== टिप्पणियाँ ==

Revision as of 11:38, 12 July 2023

यंत्र अधिगम के क्षेत्र में, सांख्यिकीय वर्गीकरण का लक्ष्य किसी वस्तु की विशेषताओं का उपयोग करके यह पहचानना है कि वह किस वर्ग (या समूह) से संबंधित है। एक रैखिक वर्गीकरणकर्ता विशेषताओं के रैखिक संयोजन के मूल्य के आधार पर वर्गीकरण निर्णय लेकर इसे प्राप्त करता है। किसी वस्तु की विशेषताओं को विशेषता (प्रतिरूप पहचान) के रूप में भी जाना जाता है और सामान्यतः मशीन को एक सदिश में प्रस्तुत किया जाता है जिसे विशेषता सदिश कहा जाता है। ऐसे वर्गीकारक प्रपत्र वर्गीकरण जैसी व्यावहारिक समस्याओं के लिए और सामान्यतः कई चर (विशेषता सदिश) वाली समस्याओं के लिए अच्छी तरह से काम करते हैं, जो प्रशिक्षण और उपयोग में कम समय लेते हुए गैर-रेखीय वर्गीकारक की तुलना में सटीकता के स्तर तक पहुंचते हैं। [1]

परिभाषा

इस स्तिथि में, ठोस और खाली बिंदुओं को किसी भी संख्या में रैखिक वर्गीकारक द्वारा सही ढंग से वर्गीकृत किया जा सकता है। H1 (नीला) उन्हें सही ढंग से वर्गीकृत करता है, जैसा कि H2 (लाल) करता है। H2 को इस अर्थ में बेहतर माना जा सकता है कि यह दोनों समूहों से सबसे दूर भी है। H3 (हरा) बिंदुओं को सही ढंग से वर्गीकृत करने में विफल रहता है।

यदि वर्गीकारक में निविष्ट विशेषता सदिश एक वास्तविक संख्या सदिश है, तो निष्पाद अंक है

जहाँ भार का एक वास्तविक सदिश है और f एक फलन है जो दो सदिश के बिंदु गुणनफल को वांछित निष्पाद में परिवर्तित करता है। (दूसरे शब्दों में, एक-रूप या रैखिक कार्यात्मक R पर मानचित्रण है) भार सदिश वर्गीकरण किए गए प्रशिक्षण प्रतिरूपों के एक सम्मुच्चय से सीखा जाता है। प्रायः f एक 'प्रभावसीमा फलन' होता है, जो सभी मानों को आरेख करता है एक निश्चित सीमा से ऊपर प्रथम श्रेणी के लिए और अन्य सभी मान द्वितीय श्रेणी के लिए; जैसे,

अधिलेख T पक्षांतर को इंगित करता है और एक अदिश सीमा है। अधिक जटिल f यह संभावना दे सकता है कि कोई वस्तु एक निश्चित वर्ग से संबंधित है।

दो-वर्ग वर्गीकरण समस्या के लिए, कोई एक अधिसमतल के साथ उच्च-आयामी निविष्ट स्थान को विभाजित करने के रूप में एक रैखिक वर्गीकारक के संचालन की कल्पना कर सकता है: अधिसमतल के एक तरफ के सभी बिंदुओं को 'यस' के रूप में वर्गीकृत किया गया है, जबकि अन्य को नहीं के रूप में वर्गीकृत किया गया है।

एक रैखिक वर्गीकारक का उपयोग प्रायः उन स्थितियों में किया जाता है जहां वर्गीकरण की गति एक विषय है, क्योंकि यह प्रायः सबसे तीव्र वर्गीकारक होता है, विशेषतः जब विरल है। इसके अतिरिक्त, आयामों की संख्या होने पर रैखिक वर्गीकारक प्रायः बहुत अच्छी तरह से काम करते हैं जिसमें प्रपत्र वर्गीकरण की तरह बड़ा है, जहां प्रत्येक तत्व सामान्यतः किसी प्रपत्र में किसी शब्द के आने की संख्या होती है (प्रपत्र-अवधि आव्यूह देखें)। ऐसी स्तिथियों में, वर्गीकारक को अच्छी तरह से नियमितीकरण (यंत्र अधिगम) होना चाहिए।

उत्पादक प्रतिरूप बनाम प्रेरक प्रतिरूप

रैखिक वर्गीकारक के मापदंडों को निर्धारित करने के लिए तरीकों के दो व्यापक वर्ग हैं। वे उत्पादक प्रतिरूप और प्रेरक प्रतिरूप हो सकते हैं। [2][3] पहले प्रतिरूप के संयुक्त संभाव्यता वितरण के तरीके, जबकि बाद वाले प्रतिरूप के तरीके सशर्त संभाव्यता वितरण है। ऐसे कलन विधि के उदाहरणों में सम्मिलित हैं:

तरीकों के दूसरे सम्मुच्चय में प्रेरक प्रतिरूप सम्मिलित हैं, जो प्रशिक्षण सम्मुच्चय पर निष्पाद की गुणवत्ता को अधिकतम करने का प्रयास करते हैं। प्रशिक्षण लागत फलन में अतिरिक्त स्तिथियाँ अंतिम प्रतिरूप का नियमितीकरण (यंत्र अधिगम) आसानी से कर सकती हैं। रैखिक वर्गीकरणकर्ताओं के प्रेरक प्रशिक्षण के उदाहरणों में सम्मिलित हैं:

  • संभार तन्त्र परावर्तन - अधिकतम संभावना अनुमान यह मानते हुए कि मनाया गया प्रशिक्षण सम्मुच्चय एक द्विपद प्रतिरूप द्वारा उत्पन्न किया गया था जो वर्गीकारक के निष्पाद पर निर्भर करता है।
  • परसेप्ट्रॉन- एक कलन विधि जो प्रशिक्षण सम्मुच्चय में आने वाली सभी त्रुटियों को ठीक करने का प्रयास करता है।
  • फिशर का रैखिक विभेदक विश्लेषण - एक कलन विधि (एलडीए से अलग) जो किसी भी अन्य धारणा के बिना, वर्ग के बीच बिखराव और वर्ग के भीतर बिखराव के अनुपात को अधिकतम करता है। यह संक्षेप में युग्मक वर्गीकरण के लिए आयामीता में कमी की एक विधि है।[4]
  • सदिश यंत्र समर्थन - एक कलन विधि जो निर्णय अधिसमतल और प्रशिक्षण सम्मुच्चय में उदाहरणों के बीच पार्श्व (मशीन लर्निंग) को अधिकतम करता है।


टिप्पणी: अपने नाम के होने पर भी, एलडीए इस वर्गीकरण में प्रेरक प्रतिरूप के वर्ग से संबंधित नहीं है। हालाँकि, इसका नाम तब समझ में आता है जब हम एलडीए की तुलना अन्य मुख्य रैखिक आयामी कमी कलन विधि: प्रमुख घटक विश्लेषण (पीसीए) से करते हैं। एलडीए एक पर्यवेक्षित शिक्षण कलन विधि है जो आंकड़ों के वर्गीकरण का उपयोग करता है, जबकि पीसीए एक असुरक्षित शिक्षण कलन विधि है जो वर्गीकरणों को अनदेखा करता है। संक्षेप में कहें तो नाम एक ऐतिहासिक कलाकृति है। [5]: 117 

प्रेरक प्रशिक्षण प्रायः सशर्त घनत्व कार्यों के प्रतिरूपण की तुलना में अधिक सटीकता प्रदान करता है। हालाँकि, सशर्त घनत्व प्रतिरूप के साथ लापता आंकड़ों को संभालना प्रायः आसान होता है।

ऊपर सूचीबद्ध सभी लीनियर वर्गीकारक कलन विधि को एक अलग निविष्ट दिक् पर काम करने वाले गैर-रेखीय कलन विधि में कर्नेल चाल का उपयोग करके परिवर्तित किया जा सकता है।

प्रेरक प्रशिक्षण

रैखिक वर्गीकारक का प्रेरक प्रशिक्षण सामान्यतः एक अनुकूलन कलन विधि के माध्यम से पर्यवेक्षित शिक्षण तरीके से आगे बढ़ता है, जिसे वांछित निष्पाद और एक हानि फलन के साथ एक प्रशिक्षण सम्मुच्चय दिया जाता है जो वर्गीकारक के निष्पाद और वांछित निष्पाद के बीच विसंगति को मापता है। इस प्रकार, सीखने का कलन विधि प्ररूप की अनुकूलन समस्या को हल करता है [1]

जहाँ

  • w वर्गीकारक मापदण्ड का एक सदिश है,
  • L(yi, wTxi) एक हानि फलन है जो वर्गक की भविष्यवाणी और i'वें प्रशिक्षण उदाहरण के लिए सही निष्पाद yi के बीच विसंगति को मापता है,
  • R(w) एक नियमितीकरण (गणित) फलन है जो मापदण्ड को बहुत बड़ा होने (ओवरफिटिंग का कारण बनने) से रोकता है, और
  • C एक अदिश स्थिरांक है (सीखने के कलन विधि के उपयोगकर्ता द्वारा निर्धारित) जो नियमितीकरण और हानि फलन के बीच संतुलन को नियंत्रित करता है।

लोकप्रिय हानि कार्यों में काज हानि (रैखिक एसवीएम के लिए) और अभिलेख हानि (रैखिक तर्कगणित परावर्तन के लिए) सम्मिलित हैं। यदि नियमितीकरण कार्य R उत्तल फलन है, तो उपरोक्त एक उत्तल अनुकूलन है। [1] ऐसी समस्याओं को हल करने के लिए कई कलन विधि उपस्थित हैं; रैखिक वर्गीकरण के लिए लोकप्रिय तरीकों में (प्रसंभाव्य) अनुप्रवण उद्भव, एल-बीएफजीएस, समन्वय वंश और न्यूटन विधियां सम्मिलित हैं।

यह भी देखें

टिप्पणियाँ

  1. 1.0 1.1 1.2 Guo-Xun Yuan; Chia-Hua Ho; Chih-Jen Lin (2012). "बड़े पैमाने पर रैखिक वर्गीकरण की हालिया प्रगति" (PDF). Proc. IEEE. 100 (9).
  2. T. Mitchell, Generative and Discriminative Classifiers: Naive Bayes and Logistic Regression. Draft Version, 2005
  3. A. Y. Ng and M. I. Jordan. On Discriminative vs. Generative Classifiers: A comparison of logistic regression and Naive Bayes. in NIPS 14, 2002.
  4. R.O. Duda, P.E. Hart, D.G. Stork, "Pattern Classification", Wiley, (2001). ISBN 0-471-05669-3
  5. R.O. Duda, P.E. Hart, D.G. Stork, "Pattern Classification", Wiley, (2001). ISBN 0-471-05669-3


अग्रिम पठन

  1. Y. Yang, X. Liu, "A re-examination of text categorization", Proc. ACM SIGIR Conference, pp. 42–49, (1999). paper @ citeseer
  2. R. Herbrich, "Learning Kernel Classifiers: Theory and Algorithms," MIT Press, (2001). ISBN 0-262-08306-X