रैखिक वर्गीकारक
यंत्र अधिगम के क्षेत्र में, सांख्यिकीय वर्गीकरण का लक्ष्य किसी वस्तु की विशेषताओं का उपयोग करके यह पहचानना है कि वह किस वर्ग (या समूह) से संबंधित है। एक रैखिक वर्गीकरणकर्ता विशेषताओं के रैखिक संयोजन के मूल्य के आधार पर वर्गीकरण निर्णय लेकर इसे प्राप्त करता है। किसी वस्तु की विशेषताओं को फीचर्स (पैटर्न पहचान) के रूप में भी जाना जाता है और आमतौर पर मशीन को एक वेक्टर में प्रस्तुत किया जाता है जिसे फ़ीचर वेक्टर कहा जाता है। ऐसे क्लासिफायर दस्तावेज़ वर्गीकरण जैसी व्यावहारिक समस्याओं के लिए और आम तौर पर कई चर (फीचर वेक्टर) वाली समस्याओं के लिए अच्छी तरह से काम करते हैं, जो प्रशिक्षण और उपयोग में कम समय लेते हुए गैर-रेखीय क्लासिफायर की तुलना में सटीकता के स्तर तक पहुंचते हैं।[1]
परिभाषा
यदि क्लासिफायरियर में इनपुट फीचर वेक्टर एक वास्तविक संख्या वेक्टर है , तो आउटपुट स्कोर है
कहाँ वज़न का एक वास्तविक वेक्टर है और f एक फ़ंक्शन है जो दो वैक्टरों के डॉट उत्पाद को वांछित आउटपुट में परिवर्तित करता है। (दूसरे शब्दों में, एक-रूप या रैखिक कार्यात्मक मानचित्रण है आर पर) वजन वेक्टर लेबल किए गए प्रशिक्षण नमूनों के एक सेट से सीखा जाता है। अक्सर f एक 'थ्रेसहोल्ड फ़ंक्शन' होता है, जो सभी मानों को मैप करता है एक निश्चित सीमा से ऊपर प्रथम श्रेणी के लिए और अन्य सभी मान द्वितीय श्रेणी के लिए; जैसे,
सुपरस्क्रिप्ट टी ट्रांसपोज़ और को इंगित करता है एक अदिश सीमा है. अधिक जटिल f यह संभावना दे सकता है कि कोई वस्तु एक निश्चित वर्ग से संबंधित है।
दो-वर्ग वर्गीकरण समस्या के लिए, कोई एक हाइपरप्लेन के साथ उच्च-आयामी अंतरिक्ष | उच्च-आयामी इनपुट स्थान को विभाजित करने के रूप में एक रैखिक क्लासिफायरियर के संचालन की कल्पना कर सकता है: हाइपरप्लेन के एक तरफ के सभी बिंदुओं को हां के रूप में वर्गीकृत किया गया है, जबकि अन्य को नहीं के रूप में वर्गीकृत किया गया है।
एक रैखिक क्लासिफायर का उपयोग अक्सर उन स्थितियों में किया जाता है जहां वर्गीकरण की गति एक मुद्दा है, क्योंकि यह अक्सर सबसे तेज़ क्लासिफायर होता है, खासकर जब विरल है. इसके अलावा, आयामों की संख्या होने पर रैखिक क्लासिफायर अक्सर बहुत अच्छी तरह से काम करते हैं दस्तावेज़ वर्गीकरण की तरह, बड़ा है, जहां प्रत्येक तत्व आमतौर पर किसी दस्तावेज़ में किसी शब्द के आने की संख्या होती है (दस्तावेज़-टर्म मैट्रिक्स देखें)। ऐसे मामलों में, क्लासिफायर को अच्छी तरह से नियमितीकरण (मशीन लर्निंग) होना चाहिए।
जनरेटिव मॉडल बनाम भेदभावपूर्ण मॉडल
रैखिक क्लासिफायरियर के मापदंडों को निर्धारित करने के लिए तरीकों के दो व्यापक वर्ग हैं . वे जनरेटिव मॉडल और भेदभावपूर्ण मॉडल मॉडल हो सकते हैं।[2][3] पहले मॉडल के संयुक्त संभाव्यता वितरण के तरीके, जबकि बाद वाले मॉडल के तरीके सशर्त संभाव्यता वितरण . ऐसे एल्गोरिदम के उदाहरणों में शामिल हैं:
- रैखिक विभेदक विश्लेषण (एलडीए) - सामान्य वितरण सशर्त घनत्व मॉडल मानता है
- मल्टीनोमियल या मल्टीवेरिएट बर्नौली इवेंट मॉडल के साथ नाइव बेयस क्लासिफायरियर।
तरीकों के दूसरे सेट में भेदभावपूर्ण मॉडल शामिल हैं, जो प्रशिक्षण सेट पर आउटपुट की गुणवत्ता को अधिकतम करने का प्रयास करते हैं। प्रशिक्षण लागत फ़ंक्शन में अतिरिक्त शर्तें अंतिम मॉडल का नियमितीकरण (मशीन लर्निंग) आसानी से कर सकती हैं। रैखिक वर्गीकरणकर्ताओं के भेदभावपूर्ण प्रशिक्षण के उदाहरणों में शामिल हैं:
- संभार तन्त्र परावर्तन -अधिकतम संभावना अनुमान यह मानते हुए कि मनाया गया प्रशिक्षण सेट एक द्विपद मॉडल द्वारा उत्पन्न किया गया था जो क्लासिफायरियर के आउटपुट पर निर्भर करता है।
- परसेप्ट्रॉन-एक एल्गोरिदम जो प्रशिक्षण सेट में आने वाली सभी त्रुटियों को ठीक करने का प्रयास करता है
- फिशर का रैखिक विभेदक विश्लेषण - एक एल्गोरिथ्म (एलडीए से अलग) जो किसी भी अन्य धारणा के बिना, वर्ग के बीच बिखराव और वर्ग के भीतर बिखराव के अनुपात को अधिकतम करता है। यह संक्षेप में बाइनरी वर्गीकरण के लिए आयामीता में कमी की एक विधि है। [4]
समर्थन वेक्टर यंत्र का समर्थन करें - एक एल्गोरिदम जो निर्णय हाइपरप्लेन और प्रशिक्षण सेट में उदाहरणों के बीच मार्जिन (मशीन लर्निंग) को अधिकतम करता है।
नोट: अपने नाम के बावजूद, एलडीए इस वर्गीकरण में भेदभावपूर्ण मॉडल के वर्ग से संबंधित नहीं है। हालाँकि, इसका नाम तब समझ में आता है जब हम एलडीए की तुलना अन्य मुख्य रैखिक आयामी कमी एल्गोरिथ्म से करते हैं: प्रमुख घटक विश्लेषण (पीसीए)। एलडीए एक पर्यवेक्षित शिक्षण एल्गोरिदम है जो डेटा के लेबल का उपयोग करता है, जबकि पीसीए एक असुरक्षित शिक्षण एल्गोरिदम है जो लेबलों को अनदेखा करता है। संक्षेप में कहें तो नाम एक ऐतिहासिक कलाकृति है।[5]: 117
भेदभावपूर्ण प्रशिक्षण अक्सर सशर्त घनत्व कार्यों के मॉडलिंग की तुलना में अधिक सटीकता प्रदान करता है[citation needed]. हालाँकि, सशर्त घनत्व मॉडल के साथ लापता डेटा को संभालना अक्सर आसान होता है[citation needed].
ऊपर सूचीबद्ध सभी लीनियर क्लासिफायर एल्गोरिदम को एक अलग इनपुट स्पेस पर काम करने वाले गैर-रेखीय एल्गोरिदम में परिवर्तित किया जा सकता है , कर्नेल चाल का उपयोग करके।
भेदभावपूर्ण प्रशिक्षण
रैखिक क्लासिफायर का भेदभावपूर्ण प्रशिक्षण आमतौर पर एक अनुकूलन एल्गोरिदम के माध्यम से पर्यवेक्षित शिक्षण तरीके से आगे बढ़ता है, जिसे वांछित आउटपुट और एक हानि फ़ंक्शन के साथ एक प्रशिक्षण सेट दिया जाता है जो क्लासिफायर के आउटपुट और वांछित आउटपुट के बीच विसंगति को मापता है। इस प्रकार, सीखने का एल्गोरिदम फॉर्म की अनुकूलन समस्या को हल करता है[1]
कहाँ
- w क्लासिफायर पैरामीटर्स का एक वेक्टर है,
- L(yi, wTxi) एक हानि फ़ंक्शन है जो क्लासिफायरियर की भविष्यवाणी और वास्तविक आउटपुट के बीच विसंगति को मापता है yi के लिए i'वां प्रशिक्षण उदाहरण,
- R(w) एक नियमितीकरण (गणित) फ़ंक्शन है जो पैरामीटर को बहुत बड़ा होने (ओवरफिटिंग का कारण बनने) से रोकता है, और
- C एक अदिश स्थिरांक है (सीखने के एल्गोरिदम के उपयोगकर्ता द्वारा निर्धारित) जो नियमितीकरण और हानि फ़ंक्शन के बीच संतुलन को नियंत्रित करता है।
लोकप्रिय हानि कार्यों में काज हानि (रैखिक एसवीएम के लिए) और लॉग हानि (रैखिक लॉजिस्टिक रिग्रेशन के लिए) शामिल हैं। यदि नियमितीकरण कार्य R उत्तल फ़ंक्शन है, तो उपरोक्त एक उत्तल अनुकूलन है।[1] ऐसी समस्याओं को हल करने के लिए कई एल्गोरिदम मौजूद हैं; रैखिक वर्गीकरण के लिए लोकप्रिय तरीकों में (स्टोकेस्टिक ढतला हुआ वंश ) ग्रेडिएंट डिसेंट, एल-बीएफजीएस, समन्वय वंश और न्यूटन विधियां शामिल हैं।
यह भी देखें
- पश्चप्रचार
- रेखीय प्रतिगमन
- परसेप्ट्रॉन
- द्विघात वर्गीकारक
- समर्थन वेक्टर मशीन
- विनो (एल्गोरिदम)
टिप्पणियाँ
- ↑ 1.0 1.1 1.2 Guo-Xun Yuan; Chia-Hua Ho; Chih-Jen Lin (2012). "बड़े पैमाने पर रैखिक वर्गीकरण की हालिया प्रगति" (PDF). Proc. IEEE. 100 (9).
- ↑ T. Mitchell, Generative and Discriminative Classifiers: Naive Bayes and Logistic Regression. Draft Version, 2005
- ↑ A. Y. Ng and M. I. Jordan. On Discriminative vs. Generative Classifiers: A comparison of logistic regression and Naive Bayes. in NIPS 14, 2002.
- ↑ R.O. Duda, P.E. Hart, D.G. Stork, "Pattern Classification", Wiley, (2001). ISBN 0-471-05669-3
- ↑ R.O. Duda, P.E. Hart, D.G. Stork, "Pattern Classification", Wiley, (2001). ISBN 0-471-05669-3
अग्रिम पठन
- Y. Yang, X. Liu, "A re-examination of text categorization", Proc. ACM SIGIR Conference, pp. 42–49, (1999). paper @ citeseer
- R. Herbrich, "Learning Kernel Classifiers: Theory and Algorithms," MIT Press, (2001). ISBN 0-262-08306-X