द्विआधारी वर्गीकरण

बाइनरी वर्गीकरण एक वर्गीकरण नियम के आधार पर एक सेट (गणित) के तत्वों को दो समूहों (प्रत्येक को वर्ग कहा जाता है) में सांख्यिकीय वर्गीकरण का कार्य है। विशिष्ट द्विआधारी वर्गीकरण समस्याओं में शामिल हैं:

यह निर्धारित करने के लिए चिकित्सा परीक्षण कि मरीज को कोई बीमारी है या नहीं;
उद्योग में गुणवत्ता नियंत्रण, यह तय करना कि क्या कोई विनिर्देश पूरा किया गया है;
सूचना पुनर्प्राप्ति में, यह तय करना कि कोई पृष्ठ खोज के परिणाम सेट में होना चाहिए या नहीं।

बाइनरी वर्गीकरण एक व्यावहारिक स्थिति पर लागू होने वाला द्विभाजन है। कई व्यावहारिक बाइनरी वर्गीकरण समस्याओं में, दोनों समूह सममित नहीं हैं, और समग्र सटीकता के बजाय, विभिन्न प्रकार I और प्रकार II त्रुटियों का सापेक्ष अनुपात रुचि का है। उदाहरण के लिए, चिकित्सा परीक्षण में, किसी बीमारी का तब पता लगाना जब वह मौजूद न हो (गलत सकारात्मक और गलत नकारात्मक#गलत सकारात्मक त्रुटि) किसी बीमारी के मौजूद होने पर उसका पता न लगाना (गलत सकारात्मक और गलत सकारात्मक त्रुटि) से अलग माना जाता है। झूठी नकारात्मक#गलत नकारात्मक त्रुटि)।

सांख्यिकीय बाइनरी वर्गीकरण

सांख्यिकीय वर्गीकरण यंत्र अधिगम में अध्ययन की जाने वाली एक समस्या है। यह एक प्रकार की पर्यवेक्षित शिक्षा है, मशीन लर्निंग की एक विधि जहां श्रेणियां पूर्वनिर्धारित होती हैं, और नई संभाव्य टिप्पणियों को उक्त श्रेणियों में वर्गीकृत करने के लिए उपयोग किया जाता है। जब केवल दो श्रेणियां होती हैं तो समस्या को सांख्यिकीय बाइनरी वर्गीकरण के रूप में जाना जाता है।

बाइनरी वर्गीकरण के लिए आमतौर पर उपयोग की जाने वाली कुछ विधियाँ हैं:

रैखिक आनुवंशिक प्रोग्रामिंग

अवलोकनों की संख्या, फ़ीचर वेक्टर की आयामीता, डेटा में शोर और कई अन्य कारकों के आधार पर प्रत्येक क्लासिफायर केवल एक चुनिंदा डोमेन में सर्वश्रेष्ठ है। उदाहरण के लिए, यादृच्छिक वन 3डी पॉइंट क्लाउड के लिए समर्थन वेक्टर यंत्र क्लासिफायर से बेहतर प्रदर्शन करते हैं।^[1]^[2]

बाइनरी क्लासिफायर का मूल्यांकन

परीक्षण किए गए उदाहरणों के इस सेट में, विभाजक के बचे हुए उदाहरणों की स्थिति का परीक्षण किया जा रहा है; दाहिना आधा भाग नहीं। अंडाकार उन उदाहरणों को सीमित करता है जिन्हें एक परीक्षण एल्गोरिदम स्थिति के रूप में वर्गीकृत करता है। हरे क्षेत्र उन उदाहरणों को उजागर करते हैं जिन्हें परीक्षण एल्गोरिदम ने सही ढंग से वर्गीकृत किया है। लेबल संदर्भित करते हैं:
टीपी=सच्चा सकारात्मक; टीएन = सच्चा नकारात्मक; एफपी=गलत सकारात्मक (प्रकार I त्रुटि); एफएन=झूठा नकारात्मक (प्रकार II त्रुटि); टीपीआर=सच्ची सकारात्मक दर निर्धारित करने के लिए उदाहरणों का सेट; एफपीआर=झूठी सकारात्मक दर निर्धारित करने के लिए उदाहरणों का सेट; पीपीवी=सकारात्मक पूर्वानुमानित मूल्य; एनपीवी=नकारात्मक पूर्वानुमानित मूल्य।

ऐसे कई मेट्रिक्स हैं जिनका उपयोग किसी क्लासिफायरियर या भविष्यवक्ता के प्रदर्शन को मापने के लिए किया जा सकता है; अलग-अलग लक्ष्यों के कारण अलग-अलग क्षेत्रों में विशिष्ट मेट्रिक्स के लिए अलग-अलग प्राथमिकताएँ होती हैं। चिकित्सा में संवेदनशीलता और विशिष्टता का अक्सर उपयोग किया जाता है, जबकि सूचना पुनर्प्राप्ति में सटीकता और स्मरण को प्राथमिकता दी जाती है। एक महत्वपूर्ण अंतर उन मेट्रिक्स के बीच है जो इस बात से स्वतंत्र हैं कि जनसंख्या (व्यापकता) में प्रत्येक श्रेणी कितनी बार आती है, और मेट्रिक्स जो व्यापकता पर निर्भर करते हैं - दोनों प्रकार उपयोगी हैं, लेकिन उनके पास बहुत अलग गुण हैं।

किसी विशिष्ट डेटा सेट के वर्गीकरण को देखते हुए, वास्तविक डेटा श्रेणी और निर्दिष्ट श्रेणी के चार बुनियादी संयोजन होते हैं: वास्तविक सकारात्मक टीपी (सही सकारात्मक असाइनमेंट), सही नकारात्मक टीएन (सही नकारात्मक असाइनमेंट), गलत सकारात्मक एफपी (गलत सकारात्मक असाइनमेंट), और गलत नकारात्मक एफएन (गलत नकारात्मक असाइनमेंट)।

Assigned Actual	Test outcome positive	Test outcome negative
Condition positive	True positive	False negative
Condition negative	False positive	True negative

इन्हें 2×2 आकस्मिक तालिका में व्यवस्थित किया जा सकता है, जिसमें वास्तविक मूल्य के अनुरूप कॉलम होंगे - स्थिति सकारात्मक या स्थिति नकारात्मक - और वर्गीकरण मूल्य के अनुरूप पंक्तियाँ - परीक्षण परिणाम सकारात्मक या परीक्षण परिणाम नकारात्मक।

आठ बुनियादी अनुपात

इस तालिका से आठ बुनियादी अनुपातों की गणना की जा सकती है, जो चार पूरक जोड़े (प्रत्येक जोड़े का योग 1) में आते हैं। इन्हें चार संख्याओं में से प्रत्येक को उसकी पंक्ति या स्तंभ के योग से विभाजित करके प्राप्त किया जाता है, जिससे आठ संख्याएँ प्राप्त होती हैं, जिन्हें सामान्य रूप से वास्तविक सकारात्मक पंक्ति अनुपात या गलत नकारात्मक स्तंभ अनुपात के रूप में संदर्भित किया जा सकता है।

इस प्रकार स्तंभ अनुपात के दो जोड़े और पंक्ति अनुपात के दो जोड़े हैं, और प्रत्येक जोड़े में से एक अनुपात चुनकर कोई इन्हें चार संख्याओं के साथ सारांशित कर सकता है - अन्य चार संख्याएँ पूरक हैं।

पंक्ति अनुपात हैं:

सच्ची सकारात्मक दर (टीपीआर) = (टीपी/(टीपी+एफएन)), उर्फ संवेदनशीलता (परीक्षण) या रिकॉल (सूचना पुनर्प्राप्ति)। ये स्थिति वाली जनसंख्या का अनुपात है जिसके लिए परीक्षण सही है।
- गलत नकारात्मक दर (FNR) के पूरक के साथ = (FN/(TP+FN))
सच्ची नकारात्मक दर (टीएनआर) = (टीएन/(टीएन+एफपी), उर्फ विशिष्टता (परीक्षण) (एसपीसी),
- पूरक झूठी सकारात्मक दर (एफपीआर) = (एफपी/(टीएन+एफपी)) के साथ, जिसे व्यापकता से स्वतंत्र भी कहा जाता है

स्तंभ अनुपात हैं:

सकारात्मक पूर्वानुमानित मूल्य (पीपीवी, उर्फ परिशुद्धता (सूचना पुनर्प्राप्ति)) (टीपी/(टीपी+एफपी))। ये किसी दिए गए परीक्षा परिणाम वाली जनसंख्या का अनुपात है जिसके लिए परीक्षण सही है।
- झूठी खोज दर (एफडीआर) (एफपी/(टीपी+एफपी)) के पूरक के साथ
नकारात्मक पूर्वानुमानित मान (एनपीवी) (टीएन/(टीएन+एफएन))
- झूठी चूक दर (FOR) (FN/(TN+FN)) के पूरक के साथ, जिसे व्यापकता पर निर्भरता भी कहा जाता है।

नैदानिक परीक्षण में, उपयोग किए जाने वाले मुख्य अनुपात वास्तविक स्तंभ अनुपात हैं - वास्तविक सकारात्मक दर और वास्तविक नकारात्मक दर - जहां उन्हें संवेदनशीलता और विशिष्टता के रूप में जाना जाता है। सूचनात्मक पुनर्प्राप्ति में, मुख्य अनुपात वास्तविक सकारात्मक अनुपात (पंक्ति और स्तंभ) हैं - सकारात्मक पूर्वानुमानित मूल्य और वास्तविक सकारात्मक दर - जहां उन्हें सटीकता और रिकॉल के रूप में जाना जाता है।

कोई व्यक्ति अनुपातों की एक पूरक जोड़ी का अनुपात ले सकता है, जिससे नैदानिक परीक्षण में चार संभावना अनुपात (अनुपातों के दो स्तंभ अनुपात, अनुपातों के दो पंक्ति अनुपात) प्राप्त होते हैं। यह मुख्य रूप से कॉलम (स्थिति) अनुपात के लिए किया जाता है, जो नैदानिक परीक्षण में संभावना अनुपात उत्पन्न करता है। अनुपातों के इन समूहों में से किसी एक का अनुपात लेने पर अंतिम अनुपात, डायग्नोस्टिक ऑड्स अनुपात (डीओआर) प्राप्त होता है। इसे सीधे (टीपी×टीएन)/(एफपी×एफएन) = (टीपी/एफएन)/(एफपी/टीएन) के रूप में भी परिभाषित किया जा सकता है; इसकी एक उपयोगी व्याख्या है - एक विषम अनुपात के रूप में - और यह व्यापकता-स्वतंत्र है।

कई अन्य मेट्रिक्स हैं, सबसे सरल सटीकता और परिशुद्धता#बाइनरी वर्गीकरण या फ्रैक्शन करेक्ट (एफसी) में, जो सही ढंग से वर्गीकृत किए गए सभी उदाहरणों के अंश को मापता है; पूरक भिन्न भिन्न (FiC) है। एफ-स्कोर वजन के विकल्प के माध्यम से सटीकता और रिकॉल को एक संख्या में जोड़ता है, जो कि संतुलित एफ-स्कोर (एफ F1 स्कोर) के समान होता है। कुछ मेट्रिक्स प्रतिगमन गुणांक से आते हैं: चिह्नितता और सूचना, और उनका ज्यामितीय माध्य, मैथ्यूज सहसंबंध गुणांक। अन्य मेट्रिक्स में यूडेन का जे आँकड़ा, अनिश्चितता गुणांक, फी गुणांक और कोहेन का कप्पा शामिल हैं।

निरंतर मानों को बाइनरी में परिवर्तित करना

ऐसे परीक्षण जिनके परिणाम निरंतर मान वाले होते हैं, जैसे कि अधिकांश रक्त मान, कटऑफ (संदर्भ मान) को परिभाषित करके कृत्रिम रूप से बाइनरी बनाया जा सकता है, परीक्षण के परिणाम को सकारात्मक या नकारात्मक परीक्षण के रूप में नामित किया जा सकता है, यह इस बात पर निर्भर करता है कि परिणामी मान इससे अधिक है या कम है। कट जाना।

हालाँकि, इस तरह के रूपांतरण से जानकारी का नुकसान होता है, क्योंकि परिणामी बाइनरी वर्गीकरण यह नहीं बताता है कि कोई मान कटऑफ से कितना ऊपर या नीचे है। नतीजतन, कटऑफ के करीब एक निरंतर मूल्य को बाइनरी में परिवर्तित करते समय, परिणामी सकारात्मक पूर्वानुमानित मूल्य या नकारात्मक पूर्वानुमानित मूल्य आम तौर पर निरंतर मूल्य से सीधे दिए गए पूर्वानुमानित मूल्य से अधिक होता है। ऐसे मामलों में, परीक्षण के सकारात्मक या नकारात्मक होने का पदनाम अनुचित रूप से उच्च निश्चितता का आभास देता है, जबकि मूल्य वास्तव में अनिश्चितता के अंतराल में होता है। उदाहरण के लिए, ह्यूमन कोरिओनिक गोनाडोट्रोपिन की मूत्र सांद्रता के निरंतर मूल्य के साथ, एक मूत्र गर्भावस्था परीक्षण जो एचसीजी के 52 एमआईयू/एमएल को मापता है, कटऑफ के रूप में 50 एमआईयू/एमएल के साथ सकारात्मक दिखा सकता है, लेकिन वास्तव में अनिश्चितता के अंतराल में है, जो केवल मूल निरंतर मूल्य जानने से ही स्पष्ट हो सकता है। दूसरी ओर, कटऑफ से बहुत दूर एक परीक्षण परिणाम में आम तौर पर परिणामी सकारात्मक या नकारात्मक पूर्वानुमानित मूल्य होता है जो निरंतर मूल्य से दिए गए पूर्वानुमानित मूल्य से कम होता है। उदाहरण के लिए, 200,000 एमआईयू/एमएल का मूत्र एचसीजी मान गर्भावस्था की बहुत अधिक संभावना प्रदान करता है, लेकिन बाइनरी मूल्यों में रूपांतरण के परिणामस्वरूप यह 52 एमआईयू/एमएल के समान ही सकारात्मक दिखता है।

यह भी देखें

बायेसियन अनुमान#उदाहरण
वर्गीकरण नियम
असमंजस का जाल
पता लगाने का सिद्धांत
कर्नेल विधियाँ
बहुवर्ग वर्गीकरण
मल्टी-लेबल वर्गीकरण
एक-वर्ग वर्गीकरण
अभियोजक की भ्रांति
प्राप्तकर्ता परिचालन विशेषता
थ्रेसहोल्डिंग (छवि प्रसंस्करण)
अनिश्चितता गुणांक, उर्फ प्रवीणता
गुणात्मक संपत्ति
परिशुद्धता और स्मरण (समकक्ष वर्गीकरण स्कीमा)

संदर्भ

↑ Zhang & Zakhor, Richard & Avideh (2014). "LiDAR और कैमरों का उपयोग करके इनडोर पॉइंट क्लाउड पर विंडो क्षेत्रों की स्वचालित पहचान". VIP Lab Publications. CiteSeerX 10.1.1.649.303.
↑ Y. Lu and C. Rasmussen (2012). "Simplified markov random fields for efficient semantic labeling of 3D point clouds" (PDF). IROS.

ग्रन्थसूची

Nello Cristianini and John Shawe-Taylor. An Introduction to Support Vector Machines and other kernel-based learning methods. Cambridge University Press, 2000. ISBN 0-521-78019-5 ([1] SVM Book)
John Shawe-Taylor and Nello Cristianini. Kernel Methods for Pattern Analysis. Cambridge University Press, 2004. ISBN 0-521-81397-2 (Website for the book)
Bernhard Schölkopf and A. J. Smola: Learning with Kernels. MIT Press, Cambridge, Massachusetts, 2002. ISBN 0-262-19475-9

[1] Zhang & Zakhor, Richard & Avideh (2014). "LiDAR और कैमरों का उपयोग करके इनडोर पॉइंट क्लाउड पर विंडो क्षेत्रों की स्वचालित पहचान". VIP Lab Publications. CiteSeerX 10.1.1.649.303.

[2] Y. Lu and C. Rasmussen (2012). "Simplified markov random fields for efficient semantic labeling of 3D point clouds" (PDF). IROS.

[1]

[2]

Anonymous

Search

द्विआधारी वर्गीकरण

Namespaces

More

Page actions

Contents

सांख्यिकीय बाइनरी वर्गीकरण

बाइनरी क्लासिफायर का मूल्यांकन

आठ बुनियादी अनुपात

निरंतर मानों को बाइनरी में परिवर्तित करना

यह भी देखें

संदर्भ

ग्रन्थसूची

Navigation

Navigation

Wiki tools

Wiki tools

Anonymous

Search

द्विआधारी वर्गीकरण

सांख्यिकीय बाइनरी वर्गीकरण

बाइनरी क्लासिफायर का मूल्यांकन

आठ बुनियादी अनुपात

निरंतर मानों को बाइनरी में परिवर्तित करना

यह भी देखें

संदर्भ

ग्रन्थसूची

Navigation

Wiki tools

Page tools

Other projects

Categories