फ़ीचर (मशीन लर्निंग)

From Vigyanwiki
Revision as of 12:54, 2 March 2023 by alpha>Indicwiki (Created page with "{{Refimprove|date=December 2014}} {{distinguish|Feature (computer vision)}} मशीन सीखने और पैटर्न की पहचान में, एक...")
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

मशीन सीखने और पैटर्न की पहचान में, एक विशेषता एक व्यक्तिगत औसत दर्जे की संपत्ति या घटना की विशेषता है।[1] पैटर्न पहचान, वर्गीकरण (मशीन लर्निंग) और प्रतिगमन विश्लेषण में प्रभावी एल्गोरिदम का सूचनात्मक, विवेकपूर्ण और स्वतंत्र विशेषताओं का चयन करना एक महत्वपूर्ण तत्व है। विशेषताएं आमतौर पर संख्यात्मक होती हैं, लेकिन संरचनात्मक विशेषताएं जैसे कि स्ट्रिंग (कंप्यूटर विज्ञान) और ग्राफ (असतत गणित) का उपयोग सिंटैक्टिक पैटर्न मान्यता में किया जाता है। सुविधा की अवधारणा सांख्यिकी तकनीकों जैसे रेखीय प्रतिगमन में उपयोग किए जाने वाले व्याख्यात्मक चर से संबंधित है।

वर्गीकरण

फीचर वेक्टर द्वारा एक न्यूमेरिक फीचर को आसानी से वर्णित किया जा सकता है। बाइनरी वर्गीकरण प्राप्त करने का एक तरीका इनपुट के रूप में एक फीचर वेक्टर के साथ एक रैखिक भविष्यवक्ता फ़ंक्शन (परसेप्ट्रॉन से संबंधित) का उपयोग कर रहा है। विधि में फीचर वेक्टर और वज़न के वेक्टर के बीच डॉट उत्पाद की गणना करना शामिल है, उन अवलोकनों को अर्हता प्राप्त करना जिनके परिणाम सीमा से अधिक हैं।

फीचर वेक्टर से वर्गीकरण के लिए एल्गोरिदम में के-निकटतम पड़ोसी एल्गोरिदम, तंत्रिका नेटवर्क और सांख्यिकीय वर्गीकरण जैसे बायेसियन अनुमान शामिल हैं।

उदाहरण

चरित्र पहचान में, सुविधाओं में क्षैतिज और ऊर्ध्वाधर दिशाओं के साथ काले पिक्सेल की संख्या, आंतरिक छिद्रों की संख्या, स्ट्रोक का पता लगाने और कई अन्य लोगों की संख्या की गणना करने वाले हिस्टोग्राम शामिल हो सकते हैं।

वाक् पहचान में, स्वरों को पहचानने की सुविधाओं में शोर अनुपात, ध्वनि की लंबाई, सापेक्ष शक्ति, फ़िल्टर मिलान और कई अन्य शामिल हो सकते हैं।

स्पैम (इलेक्ट्रॉनिक) डिटेक्शन एल्गोरिदम में, सुविधाओं में कुछ ईमेल हेडर की उपस्थिति या अनुपस्थिति शामिल हो सकती है, ईमेल संरचना, भाषा, विशिष्ट शब्दों की आवृत्ति, पाठ की व्याकरणिक शुद्धता।

कंप्यूटर दृष्टि में बड़ी संख्या में संभावित विशेषताएँ (कंप्यूटर विज़न) होती हैं, जैसे कि किनारे और वस्तुएँ।

एक्सटेंशन

पैटर्न की पहचान और मशीन सीखने में, एक फीचर वेक्टर संख्यात्मक विशेषताओं का एक एन-डायमेंशनल वेक्टर (ज्यामितीय) है जो किसी वस्तु का प्रतिनिधित्व करता है। मशीन लर्निंग में कई कलन विधि को वस्तुओं के संख्यात्मक प्रतिनिधित्व की आवश्यकता होती है, क्योंकि ऐसे प्रतिनिधित्व प्रसंस्करण और सांख्यिकीय विश्लेषण की सुविधा प्रदान करते हैं। छवियों का प्रतिनिधित्व करते समय, फीचर मान एक छवि के पिक्सेल के अनुरूप हो सकते हैं, जबकि ग्रंथों का प्रतिनिधित्व करते समय फीचर पाठ्य शब्दों की घटना की आवृत्ति हो सकती है। फीचर वैक्टर रैखिक प्रतिगमन जैसे सांख्यिकी प्रक्रियाओं में उपयोग किए जाने वाले व्याख्यात्मक चर के वैक्टर के बराबर हैं। फ़ीचर वैक्टर को अक्सर एक डॉट उत्पाद का उपयोग करके वज़न के साथ जोड़ा जाता है ताकि एक रेखीय भविष्यवक्ता फ़ंक्शन का निर्माण किया जा सके जिसका उपयोग भविष्यवाणी करने के लिए स्कोर निर्धारित करने के लिए किया जाता है।

इन वैक्टरों से जुड़े सदिश स्थल को अक्सर फीचर स्पेस कहा जाता है। फीचर स्पेस की डायमेंशनलिटी को कम करने के लिए, कई आयामीता में कमी तकनीकों को नियोजित किया जा सकता है।

उच्च-स्तरीय सुविधाएँ पहले से उपलब्ध सुविधाओं से प्राप्त की जा सकती हैं और फीचर वेक्टर में जोड़ी जा सकती हैं; उदाहरण के लिए, रोगों के अध्ययन के लिए 'आयु' सुविधा उपयोगी है और इसे 'आयु = 'मृत्यु का वर्ष' माइनस 'जन्म का वर्ष के रूप में परिभाषित किया गया है। इस प्रक्रिया को फीचर निर्माण के रूप में जाना जाता है।[2][3] फ़ीचर निर्माण रचनात्मक ऑपरेटरों के एक सेट का मौजूदा सुविधाओं के एक सेट पर अनुप्रयोग है जिसके परिणामस्वरूप नई सुविधाओं का निर्माण होता है। ऐसे रचनात्मक ऑपरेटरों के उदाहरणों में समानता की स्थिति {=, ≠}, अंकगणितीय ऑपरेटर {+,−,×, /}, सरणी ऑपरेटर {max(S), min(S), औसत(S)} के रूप में जाँच करना शामिल है साथ ही अन्य अधिक परिष्कृत ऑपरेटर, उदाहरण के लिए गिनती (एस, सी)[4] यह फीचर वेक्टर एस में सुविधाओं की संख्या की गणना करता है जो कुछ शर्त सी को संतुष्ट करता है या, उदाहरण के लिए, कुछ स्वीकार्य डिवाइस द्वारा सामान्यीकृत अन्य मान्यता वर्गों की दूरी। विशेष रूप से उच्च-आयामी समस्याओं में संरचना की सटीकता और समझ दोनों को बढ़ाने के लिए फीचर निर्माण को लंबे समय से एक शक्तिशाली उपकरण माना जाता है।[5] अनुप्रयोगों में भाषण से रोग और भावनाओं की पहचान का अध्ययन शामिल है।[6]


चयन और निष्कर्षण

कच्ची सुविधाओं का प्रारंभिक सेट बेमानी हो सकता है और प्रबंधित करने के लिए बहुत बड़ा हो सकता है। इसलिए, मशीन लर्निंग और पैटर्न पहचान के कई अनुप्रयोगों में एक प्रारंभिक चरण में फीचर चयन, सुविधाओं का एक सबसेट, या सुविधा निकालना , सीखने की सुविधा के लिए सुविधाओं का एक नया और कम सेट, और सामान्यीकरण और व्याख्यात्मकता में सुधार करना शामिल है।[citation needed].

सुविधाओं को निकालना या चुनना कला और विज्ञान का संयोजन है; ऐसा करने के लिए विकासशील सिस्टम को फीचर इंजीनियरिंग के रूप में जाना जाता है। इसके लिए डोमेन विशेषज्ञ के अंतर्ज्ञान और ज्ञान के साथ कई संभावनाओं के प्रयोग और स्वचालित तकनीकों के संयोजन की आवश्यकता होती है। इस प्रक्रिया को स्वचालित करना फीचर लर्निंग है, जहाँ एक मशीन न केवल सीखने के लिए सुविधाओं का उपयोग करती है, बल्कि स्वयं सुविधाओं को सीखती है।

यह भी देखें

संदर्भ

  1. Bishop, Christopher (2006). पैटर्न मान्यता और मशीन प्रवीणता. Berlin: Springer. ISBN 0-387-31073-8.
  2. Liu, H., Motoda H. (1998) Feature Selection for Knowledge Discovery and Data Mining., Kluwer Academic Publishers. Norwell, MA, USA. 1998.
  3. Piramuthu, S., Sikora R. T. Iterative feature construction for improving inductive learning algorithms. In Journal of Expert Systems with Applications. Vol. 36 , Iss. 2 (March 2009), pp. 3401-3406, 2009
  4. Bloedorn, E., Michalski, R. Data-driven constructive induction: a methodology and its applications. IEEE Intelligent Systems, Special issue on Feature Transformation and Subset Selection, pp. 30-37, March/April, 1998
  5. Breiman, L. Friedman, T., Olshen, R., Stone, C. (1984) Classification and regression trees, Wadsworth
  6. Sidorova, J., Badia T. Syntactic learning for ESEDA.1, tool for enhanced speech emotion detection and analysis. Internet Technology and Secured Transactions Conference 2009 (ICITST-2009), London, November 9–12. IEEE