द्विआधारी वर्गीकरण
बाइनरी वर्गीकरण एक वर्गीकरण नियम के आधार पर एक समुच्चय (गणित) के तत्वों को दो समूहों (प्रत्येक को वर्ग कहा जाता है) में सांख्यिकीय वर्गीकरण का कार्य है। विशिष्ट द्विआधारी वर्गीकरण समस्याओं में सम्मिलित हैं:
- यह निर्धारित करने के लिए चिकित्सा परीक्षण कि मरीज को कोई बीमारी है या नहीं;
- उद्योग में गुणवत्ता नियंत्रण, यह तय करना कि क्या कोई विनिर्देश पूरा किया गया है;
- सूचना पुनर्प्राप्ति में, यह तय करना कि कोई पृष्ठ खोज के परिणाम सेट में होना चाहिए या नहीं।
बाइनरी वर्गीकरण एक व्यावहारिक स्थिति पर लागू होने वाला द्विभाजन है। कई व्यावहारिक बाइनरी वर्गीकरण समस्याओं में, दोनों समूह सममित नहीं हैं, और समग्र सटीकता के बजाय, विभिन्न प्रकार, और प्रकार, त्रुटियों का सापेक्ष अनुपात रुचि है। उदाहरण के लिए, चिकित्सा परीक्षण में, किसी बीमारी का तब पता लगाना जब वह उपस्थित न हो (गलत घनात्मक और गलत ऋणात्मक#गलत घनात्मक त्रुटि) किसी बीमारी के उपस्थित होने पर उसका पता न लगाना (गलत घनात्मक और गलत घनात्मक त्रुटि) से अलग माना जाता है। फाल्स ऋणात्मक#गलत ऋणात्मक त्रुटि)।
सांख्यिकीय बाइनरी वर्गीकरण
सांख्यिकीय वर्गीकरण यंत्र अधिगम में अध्ययन की जाने वाली एक समस्या है। यह एक प्रकार की पर्यवेक्षित शिक्षा है, मशीन लर्निंग की एक विधि जहां श्रेणियां पूर्वनिर्धारित होती हैं, और नई संभाव्य टिप्पणियों को उक्त श्रेणियों में वर्गीकृत करने के लिए उपयोग किया जाता है। जब केवल दो श्रेणियां होती हैं तो समस्या को सांख्यिकीय बाइनरी वर्गीकरण के रूप में जाना जाता है।
बाइनरी वर्गीकरण के लिए सामान्यतः उपयोग की जाने वाली कुछ विधियाँ हैं:
- डिसिशन ट्री
- रैंडम फॉरेस्ट (यादृच्छिक वन)
- बायेसियन नेटवर्क
- सपोर्ट वेक्टर मशीन
तर्कगणित प्रतिगमन (लोगिस्टिक रिग्रेशन)
अवलोकनों की संख्या, फ़ीचर वेक्टर की आयामीता, डेटा में शोर और कई अन्य कारकों के आधार पर प्रत्येक क्लासिफायर केवल एक चुनिंदा डोमेन में सर्वश्रेष्ठ है। उदाहरण के लिए, यादृच्छिक वन 3डी पॉइंट क्लाउड के लिए सपोर्ट वेक्टर मशीन (एसवीएम) क्लासिफायर से बेहतर प्रदर्शन करते हैं।[1][2]
बाइनरी क्लासिफायर का मूल्यांकन
ऐसे कई मेट्रिक्स हैं जिनका उपयोग किसी क्लासिफायरियर या भविष्यवक्ता के प्रदर्शन को मापने के लिए किया जा सकता है; अलग-अलग लक्ष्यों के कारण अलग-अलग क्षेत्रों में विशिष्ट मेट्रिक्स के लिए अलग-अलग प्राथमिकताएँ होती हैं। चिकित्सा में संवेदनशीलता और विशिष्टता का प्रायः उपयोग किया जाता है, जबकि सूचना पुनर्प्राप्ति में सटीकता और स्मरण को प्राथमिकता दी जाती है। एक महत्वपूर्ण अंतर उन मेट्रिक्स के बीच है जो इस बात से स्वतंत्र हैं कि जनसंख्या (व्यापकता) में प्रत्येक श्रेणी कितनी बार आती है, और मेट्रिक्स जो व्यापकता पर निर्भर करते हैं - दोनों प्रकार उपयोगी हैं, लेकिन उनके पास बहुत अलग गुण हैं।
किसी विशिष्ट डेटा सेट के वर्गीकरण को देखते हुए, वास्तविक डेटा श्रेणी और निर्दिष्ट श्रेणी के चार बुनियादी संयोजन होते हैं: वास्तविक घनात्मक TP (ट्रू पॉजिटिव/ सही घनात्मक असाइनमेंट), सही ऋणात्मक TN ((ट्रू ऋणात्मक/सही ऋणात्मक असाइनमेंट), गलत घनात्मक FP (गलत घनात्मक असाइनमेंट), और गलत ऋणात्मक FN (फाल्स नेगेटिव/गलत ऋणात्मक असाइनमेंट)।
Assigned Actual
|
टेस्ट आउटकम घनात्मक | टेस्ट आउटकम ऋणात्मक |
---|---|---|
स्थिति घनात्मक | सही घनात्मक | गलत ऋणात्मक |
स्थिति ऋणात्मक | गलत घनात्मक | सही ऋणात्मक |
इन्हें 2×2 आकस्मिक तालिका में व्यवस्थित किया जा सकता है, जिसमें वास्तविक मूल्य के अनुरूप कॉलम होंगे - स्थिति घनात्मक या स्थिति ऋणात्मक - और वर्गीकरण मूल्य के अनुरूप रोव - परीक्षण परिणाम घनात्मक या परीक्षण परिणाम ऋणात्मक।
आठ बुनियादी अनुपात
इस तालिका से आठ बुनियादी अनुपातों की गणना की जा सकती है, जो चार पूरक जोड़े (प्रत्येक जोड़े का योग 1) में आते हैं। इन्हें चार संख्याओं में से प्रत्येक को उसकी रोव या कॉलम के योग से विभाजित करके प्राप्त किया जाता है, जिससे आठ संख्याएँ प्राप्त होती हैं, जिन्हें सामान्य रूप से वास्तविक घनात्मक रोव अनुपात या गलत ऋणात्मक कॉलम अनुपात के रूप में संदर्भित किया जा सकता है।
इस प्रकार कॉलम अनुपात के दो जोड़े और रोव अनुपात के दो जोड़े हैं, और प्रत्येक जोड़े में से एक अनुपात चुनकर कोई इन्हें चार संख्याओं के साथ सारांशित कर सकता है - अन्य चार संख्याएँ पूरक हैं।
रोव के अनुपात हैं:
- ट्रू पॉजिटिव रेट (TPR) = (TP/(TP+FN)), उर्फ संवेदनशीलता (परीक्षण) या रिकॉल (सूचना पुनर्प्राप्ति)। ये स्थिति वाली जनसंख्या का अनुपात है जिसके लिए परीक्षण सही है।
- फाल्स नेगेटिव रेट (FNR) के पूरक के साथ = (FN/(TP+FN))
- ट्रू पॉजिटिव रेट (TNR) = (TN/(TN+FP), उर्फ विशिष्टता (परीक्षण) (SPC),
- पूरक फाल्स पॉजिटिव रेट (FPR) = (FP/(TN+FP)) के साथ, जिसे व्यापकता से स्वतंत्र भी कहा जाता है
कॉलम के अनुपात हैं:
- पॉजिटिव प्रेडिक्टिव वैल्यू (घनात्मक पूर्वानुमानित मूल्य) (PPV, उर्फ परिशुद्धता (सूचना पुनर्प्राप्ति)) (TP/(TP+FP))। ये किसी दिए गए परीक्षा परिणाम वाली जनसंख्या का अनुपात है जिसके लिए परीक्षण सही है।
- फॉल्स डिस्कवरी रेट (FDR) (FP/(TP+FP)) के पूरक के साथ
- नेगेटिव प्रेडिक्टिव वैल्यू (ऋणात्मक पूर्वानुमानित मान) (NPV) (TN/(TN+FN)))
- फॉल्स ओमिशन रेट (FOR) (FN/(TN+FN)) के पूरक के साथ, जिसे व्यापकता पर निर्भरता भी कहा जाता है।
नैदानिक परीक्षण में, उपयोग किए जाने वाले मुख्य अनुपात वास्तविक कॉलम अनुपात हैं - वास्तविक घनात्मक दर और वास्तविक ऋणात्मक दर - जहां उन्हें संवेदनशीलता और विशिष्टता के रूप में जाना जाता है। सूचनात्मक पुनर्प्राप्ति में, मुख्य अनुपात वास्तविक घनात्मक अनुपात (रोव और कॉलम) हैं - घनात्मक पूर्वानुमानित मूल्य और वास्तविक घनात्मक दर - जहां उन्हें सटीकता और रिकॉल के रूप में जाना जाता है।
कोई व्यक्ति अनुपातों की एक पूरक जोड़ी का अनुपात ले सकता है, जिससे नैदानिक परीक्षण में चार संभावना अनुपात (अनुपातों के दो कॉलम अनुपात, अनुपातों के दो रोव अनुपात) प्राप्त होते हैं। यह मुख्य रूप से कॉलम (स्थिति) अनुपात के लिए किया जाता है, जो नैदानिक परीक्षण में संभावना अनुपात उत्पन्न करता है। अनुपातों के इन समूहों में से किसी एक का अनुपात लेने पर अंतिम अनुपात, डायग्नोस्टिक ऑड्स अनुपात (डीओआर) प्राप्त होता है। इसे सीधे (TP×TN)/(FP×FN) = (TP/FN)/(FP/TN) के रूप में भी परिभाषित किया जा सकता है; इसकी एक उपयोगी व्याख्या है - एक विषम अनुपात के रूप में - और यह व्यापकता-स्वतंत्र है।
कई अन्य मेट्रिक्स हैं, सबसे सरल सटीकता और परिशुद्धता बाइनरी वर्गीकरण या फ्रैक्शन करेक्ट (FC) में, जो सही ढंग से वर्गीकृत किए गए सभी उदाहरणों के अंश को मापता है; फ्रैक्शन इनकरेक्ट (FiC) है। F-स्कोर वजन के विकल्प के माध्यम से सटीकता और रिकॉल को एक संख्या में जोड़ता है, जो कि संतुलित F-स्कोर (F1 स्कोर) के समान होता है। कुछ मेट्रिक्स प्रतिगमन गुणांक से आते हैं: चिह्नितता और सूचना, और उनका ज्यामितीय माध्य, मैथ्यूज सहसंबंध गुणांक। अन्य मेट्रिक्स में यूडेन का जे आँकड़ा, अनिश्चितता गुणांक, फी गुणांक और कोहेन का कप्पा सम्मिलित हैं।
निरंतर मान को बाइनरी में परिवर्तित करना
ऐसे परीक्षण जिनके परिणाम निरंतर मान वाले होते हैं, जैसे कि अधिकांश ब्लड वैल्यू , कटऑफ (संदर्भ मान) को परिभाषित करके कृत्रिम रूप से बाइनरी बनाया जा सकता है, परीक्षण के परिणाम को घनात्मक या ऋणात्मक परीक्षण के रूप में नामित किया जा सकता है, यह इस बात पर निर्भर करता है कि परिणामी मान इससे अधिक है या कटऑफ से कम है।
हालाँकि, इस तरह के रूपांतरण से जानकारी का नुकसान होता है, क्योंकि परिणामी बाइनरी वर्गीकरण यह नहीं बताता है कि कोई मान कटऑफ से कितना ऊपर या नीचे है। नतीजतन, कटऑफ के नज़दीक एक निरंतर मूल्य को बाइनरी में परिवर्तित करते समय, परिणामी घनात्मक पूर्वानुमानित मूल्य या ऋणात्मक पूर्वानुमानित मूल्य सामान्यतः निरंतर मूल्य से सीधे दिए गए पूर्वानुमानित मूल्य से अधिक होता है। ऐसे परिस्थितियो में, परीक्षण के घनात्मक या ऋणात्मक होने का पदनाम अनुचित रूप से उच्च निश्चितता का आभास देता है, जबकि मूल्य वास्तव में अनिश्चितता के अंतराल में होता है। उदाहरण के लिए, ह्यूमन कोरिओनिक गोनाडोट्रोपिन (hCG) की मूत्र सांद्रता के निरंतर मूल्य के साथ, एक मूत्र गर्भावस्था परीक्षण जो hCG के 52 mlU/ml को मापता है, कटऑफ के रूप में 50 mlU/ml के साथ घनात्मक दिखा सकता है, लेकिन वास्तव में अनिश्चितता के अंतराल में है, जो केवल मूल निरंतर मूल्य जानने से ही स्पष्ट हो सकता है। दूसरी ओर, कटऑफ से बहुत दूर एक परीक्षण परिणाम में सामान्यतः परिणामी घनात्मक या ऋणात्मक पूर्वानुमानित मूल्य होता है जो निरंतर मूल्य से दिए गए पूर्वानुमानित मूल्य से कम होता है। उदाहरण के लिए, 200,000 mlU/ml का मूत्र hCG मान गर्भावस्था की बहुत अधिक संभावना प्रदान करता है, लेकिन बाइनरी मूल्यों में रूपांतरण के परिणामस्वरूप यह 52 mlU/ml के समान ही घनात्मक दिखता है।
यह भी देखें
- बायेसियन अनुमान के उदाहरण
- वर्गीकरण नियम
- भ्रम (कन्फूशन) मैट्रिक्स
- पता लगाने का सिद्धांत
- कर्नेल विधियाँ
- बहुवर्ग वर्गीकरण
- मल्टी-लेबल वर्गीकरण
- एक-वर्ग वर्गीकरण
- अभियोजक का भ्रम (प्रासीक्यूटर फलस्य)
- प्राप्तकर्ता परिचालन विशेषता
- थ्रेसहोल्डिंग (छवि प्रसंस्करण)
- अनिश्चितता गुणांक, उर्फ प्रवीणता
- गुणात्मक गुण
- परिशुद्धता और स्मरण (समकक्ष वर्गीकरण स्कीमा)
संदर्भ
- ↑ Zhang & Zakhor, Richard & Avideh (2014). "LiDAR और कैमरों का उपयोग करके इनडोर पॉइंट क्लाउड पर विंडो क्षेत्रों की स्वचालित पहचान". VIP Lab Publications. CiteSeerX 10.1.1.649.303.
- ↑ Y. Lu and C. Rasmussen (2012). "Simplified markov random fields for efficient semantic labeling of 3D point clouds" (PDF). IROS.
ग्रन्थसूची
- Nello Cristianini and John Shawe-Taylor. An Introduction to Support Vector Machines and other kernel-based learning methods. Cambridge University Press, 2000. ISBN 0-521-78019-5 ([1] SVM Book)
- John Shawe-Taylor and Nello Cristianini. Kernel Methods for Pattern Analysis. Cambridge University Press, 2004. ISBN 0-521-81397-2 (Website for the book)
- Bernhard Schölkopf and A. J. Smola: Learning with Kernels. MIT Press, Cambridge, Massachusetts, 2002. ISBN 0-262-19475-9