रैखिक वर्गीकारक: Difference between revisions

From Vigyanwiki
(No difference)

Revision as of 11:30, 15 July 2023

यंत्र अधिगम के क्षेत्र में, सांख्यिकीय वर्गीकरण का लक्ष्य किसी वस्तु की विशेषताओं का उपयोग करके यह पहचानना है कि वह किस वर्ग (या समूह) से संबंधित है। एक रैखिक वर्गीकरणकर्ता विशेषताओं के रैखिक संयोजन के मूल्य के आधार पर वर्गीकरण निर्णय लेकर इसे प्राप्त करता है। किसी वस्तु की विशेषताओं को विशेषता (प्रतिरूप पहचान) के रूप में भी जाना जाता है और सामान्यतः मशीन को एक सदिश में प्रस्तुत किया जाता है जिसे विशेषता सदिश कहा जाता है। ऐसे वर्गीकारक प्रपत्र वर्गीकरण जैसी व्यावहारिक समस्याओं के लिए और सामान्यतः कई चर (विशेषता सदिश) वाली समस्याओं के लिए अच्छी तरह से काम करते हैं, जो प्रशिक्षण और उपयोग में कम समय लेते हुए गैर-रेखीय वर्गीकारक की तुलना में सटीकता के स्तर तक पहुंचते हैं। [1]

परिभाषा

इस स्तिथि में, ठोस और खाली बिंदुओं को किसी भी संख्या में रैखिक वर्गीकारक द्वारा सही ढंग से वर्गीकृत किया जा सकता है। H1 (नीला) उन्हें सही ढंग से वर्गीकृत करता है, जैसा कि H2 (लाल) करता है। H2 को इस अर्थ में बेहतर माना जा सकता है कि यह दोनों समूहों से सबसे दूर भी है। H3 (हरा) बिंदुओं को सही ढंग से वर्गीकृत करने में विफल रहता है।

यदि वर्गीकारक में निविष्ट विशेषता सदिश एक वास्तविक संख्या सदिश है, तो निष्पाद अंक है

जहाँ भार का एक वास्तविक सदिश है और f एक फलन है जो दो सदिश के बिंदु गुणनफल को वांछित निष्पाद में परिवर्तित करता है। (दूसरे शब्दों में, एक-रूप या रैखिक कार्यात्मक R पर मानचित्रण है) भार सदिश वर्गीकरण किए गए प्रशिक्षण प्रतिरूपों के एक सम्मुच्चय से सीखा जाता है। प्रायः f एक 'प्रभावसीमा फलन' होता है, जो सभी मानों को आरेख करता है एक निश्चित सीमा से ऊपर प्रथम श्रेणी के लिए और अन्य सभी मान द्वितीय श्रेणी के लिए; जैसे,

अधिलेख T पक्षांतर को इंगित करता है और एक अदिश सीमा है। अधिक जटिल f यह संभावना दे सकता है कि कोई वस्तु एक निश्चित वर्ग से संबंधित है।

दो-वर्ग वर्गीकरण समस्या के लिए, कोई एक अधिसमतल के साथ उच्च-आयामी निविष्ट स्थान को विभाजित करने के रूप में एक रैखिक वर्गीकारक के संचालन की कल्पना कर सकता है: अधिसमतल के एक तरफ के सभी बिंदुओं को 'यस' के रूप में वर्गीकृत किया गया है, जबकि अन्य को नहीं के रूप में वर्गीकृत किया गया है।

एक रैखिक वर्गीकारक का उपयोग प्रायः उन स्थितियों में किया जाता है जहां वर्गीकरण की गति एक विषय है, क्योंकि यह प्रायः सबसे तीव्र वर्गीकारक होता है, विशेषतः जब विरल है। इसके अतिरिक्त, आयामों की संख्या होने पर रैखिक वर्गीकारक प्रायः बहुत अच्छी तरह से काम करते हैं जिसमें प्रपत्र वर्गीकरण की तरह बड़ा है, जहां प्रत्येक तत्व सामान्यतः किसी प्रपत्र में किसी शब्द के आने की संख्या होती है (प्रपत्र-अवधि आव्यूह देखें)। ऐसी स्तिथियों में, वर्गीकारक को अच्छी तरह से नियमितीकरण (यंत्र अधिगम) होना चाहिए।

उत्पादक प्रतिरूप बनाम प्रेरक प्रतिरूप

रैखिक वर्गीकारक के मापदंडों को निर्धारित करने के लिए तरीकों के दो व्यापक वर्ग हैं। वे उत्पादक प्रतिरूप और प्रेरक प्रतिरूप हो सकते हैं। [2][3] पहले प्रतिरूप के संयुक्त संभाव्यता वितरण के तरीके, जबकि बाद वाले प्रतिरूप के तरीके सशर्त संभाव्यता वितरण है। ऐसे कलन विधि के उदाहरणों में सम्मिलित हैं:

तरीकों के दूसरे सम्मुच्चय में प्रेरक प्रतिरूप सम्मिलित हैं, जो प्रशिक्षण सम्मुच्चय पर निष्पाद की गुणवत्ता को अधिकतम करने का प्रयास करते हैं। प्रशिक्षण लागत फलन में अतिरिक्त स्तिथियाँ अंतिम प्रतिरूप का नियमितीकरण (यंत्र अधिगम) आसानी से कर सकती हैं। रैखिक वर्गीकरणकर्ताओं के प्रेरक प्रशिक्षण के उदाहरणों में सम्मिलित हैं:

  • संभार तन्त्र परावर्तन - अधिकतम संभावना अनुमान यह मानते हुए कि मनाया गया प्रशिक्षण सम्मुच्चय एक द्विपद प्रतिरूप द्वारा उत्पन्न किया गया था जो वर्गीकारक के निष्पाद पर निर्भर करता है।
  • परसेप्ट्रॉन- एक कलन विधि जो प्रशिक्षण सम्मुच्चय में आने वाली सभी त्रुटियों को ठीक करने का प्रयास करता है।
  • फिशर का रैखिक विभेदक विश्लेषण - एक कलन विधि (एलडीए से अलग) जो किसी भी अन्य धारणा के बिना, वर्ग के बीच बिखराव और वर्ग के भीतर बिखराव के अनुपात को अधिकतम करता है। यह संक्षेप में युग्मक वर्गीकरण के लिए आयामीता में कमी की एक विधि है।[4]
  • सदिश यंत्र समर्थन - एक कलन विधि जो निर्णय अधिसमतल और प्रशिक्षण सम्मुच्चय में उदाहरणों के बीच पार्श्व (मशीन लर्निंग) को अधिकतम करता है।


टिप्पणी: अपने नाम के होने पर भी, एलडीए इस वर्गीकरण में प्रेरक प्रतिरूप के वर्ग से संबंधित नहीं है। हालाँकि, इसका नाम तब समझ में आता है जब हम एलडीए की तुलना अन्य मुख्य रैखिक आयामी कमी कलन विधि: प्रमुख घटक विश्लेषण (पीसीए) से करते हैं। एलडीए एक पर्यवेक्षित शिक्षण कलन विधि है जो आंकड़ों के वर्गीकरण का उपयोग करता है, जबकि पीसीए एक असुरक्षित शिक्षण कलन विधि है जो वर्गीकरणों को अनदेखा करता है। संक्षेप में कहें तो नाम एक ऐतिहासिक कलाकृति है। [5]: 117 

प्रेरक प्रशिक्षण प्रायः सशर्त घनत्व कार्यों के प्रतिरूपण की तुलना में अधिक सटीकता प्रदान करता है। हालाँकि, सशर्त घनत्व प्रतिरूप के साथ लापता आंकड़ों को संभालना प्रायः आसान होता है।

ऊपर सूचीबद्ध सभी लीनियर वर्गीकारक कलन विधि को एक अलग निविष्ट दिक् पर काम करने वाले गैर-रेखीय कलन विधि में कर्नेल चाल का उपयोग करके परिवर्तित किया जा सकता है।

प्रेरक प्रशिक्षण

रैखिक वर्गीकारक का प्रेरक प्रशिक्षण सामान्यतः एक अनुकूलन कलन विधि के माध्यम से पर्यवेक्षित शिक्षण तरीके से आगे बढ़ता है, जिसे वांछित निष्पाद और एक हानि फलन के साथ एक प्रशिक्षण सम्मुच्चय दिया जाता है जो वर्गीकारक के निष्पाद और वांछित निष्पाद के बीच विसंगति को मापता है। इस प्रकार, सीखने का कलन विधि प्ररूप की अनुकूलन समस्या को हल करता है [1]

जहाँ

  • w वर्गीकारक मापदण्ड का एक सदिश है,
  • L(yi, wTxi) एक हानि फलन है जो वर्गक की भविष्यवाणी और i'वें प्रशिक्षण उदाहरण के लिए सही निष्पाद yi के बीच विसंगति को मापता है,
  • R(w) एक नियमितीकरण (गणित) फलन है जो मापदण्ड को बहुत बड़ा होने (ओवरफिटिंग का कारण बनने) से रोकता है, और
  • C एक अदिश स्थिरांक है (सीखने के कलन विधि के उपयोगकर्ता द्वारा निर्धारित) जो नियमितीकरण और हानि फलन के बीच संतुलन को नियंत्रित करता है।

लोकप्रिय हानि कार्यों में काज हानि (रैखिक एसवीएम के लिए) और अभिलेख हानि (रैखिक तर्कगणित परावर्तन के लिए) सम्मिलित हैं। यदि नियमितीकरण कार्य R उत्तल फलन है, तो उपरोक्त एक उत्तल अनुकूलन है। [1] ऐसी समस्याओं को हल करने के लिए कई कलन विधि उपस्थित हैं; रैखिक वर्गीकरण के लिए लोकप्रिय तरीकों में (प्रसंभाव्य) अनुप्रवण उद्भव, एल-बीएफजीएस, समन्वय वंश और न्यूटन विधियां सम्मिलित हैं।

यह भी देखें

टिप्पणियाँ

  1. 1.0 1.1 1.2 Guo-Xun Yuan; Chia-Hua Ho; Chih-Jen Lin (2012). "बड़े पैमाने पर रैखिक वर्गीकरण की हालिया प्रगति" (PDF). Proc. IEEE. 100 (9).
  2. T. Mitchell, Generative and Discriminative Classifiers: Naive Bayes and Logistic Regression. Draft Version, 2005
  3. A. Y. Ng and M. I. Jordan. On Discriminative vs. Generative Classifiers: A comparison of logistic regression and Naive Bayes. in NIPS 14, 2002.
  4. R.O. Duda, P.E. Hart, D.G. Stork, "Pattern Classification", Wiley, (2001). ISBN 0-471-05669-3
  5. R.O. Duda, P.E. Hart, D.G. Stork, "Pattern Classification", Wiley, (2001). ISBN 0-471-05669-3


अग्रिम पठन

  1. Y. Yang, X. Liu, "A re-examination of text categorization", Proc. ACM SIGIR Conference, pp. 42–49, (1999). paper @ citeseer
  2. R. Herbrich, "Learning Kernel Classifiers: Theory and Algorithms," MIT Press, (2001). ISBN 0-262-08306-X