द्विआधारी वर्गीकरण: Difference between revisions
No edit summary |
No edit summary |
||
Line 1: | Line 1: | ||
बाइनरी वर्गीकरण एक [[वर्गीकरण नियम]] के आधार पर एक [[सेट (गणित)]] के तत्वों को दो समूहों (प्रत्येक को ''वर्ग'' कहा जाता है) में [[सांख्यिकीय वर्गीकरण]] का कार्य है। विशिष्ट द्विआधारी वर्गीकरण समस्याओं में | बाइनरी वर्गीकरण एक [[वर्गीकरण नियम]] के आधार पर एक [[सेट (गणित)|समुच्चय (गणित)]] के तत्वों को दो समूहों (प्रत्येक को ''वर्ग'' कहा जाता है) में [[सांख्यिकीय वर्गीकरण]] का कार्य है। विशिष्ट द्विआधारी वर्गीकरण समस्याओं में सम्मिलित हैं: | ||
* यह निर्धारित करने के लिए चिकित्सा परीक्षण कि मरीज को कोई बीमारी है या नहीं; | * यह निर्धारित करने के लिए चिकित्सा परीक्षण कि मरीज को कोई बीमारी है या नहीं; | ||
* उद्योग में [[गुणवत्ता नियंत्रण]], यह तय करना कि क्या कोई विनिर्देश पूरा किया गया है; | * उद्योग में [[गुणवत्ता नियंत्रण]], यह तय करना कि क्या कोई विनिर्देश पूरा किया गया है; | ||
* सूचना पुनर्प्राप्ति में, यह तय करना कि कोई पृष्ठ खोज के [[परिणाम सेट]] में होना चाहिए या नहीं। | * सूचना पुनर्प्राप्ति में, यह तय करना कि कोई पृष्ठ खोज के [[परिणाम सेट]] में होना चाहिए या नहीं। | ||
बाइनरी वर्गीकरण एक व्यावहारिक स्थिति पर लागू होने वाला [[द्विभाजन]] है। कई व्यावहारिक बाइनरी वर्गीकरण समस्याओं में, दोनों समूह सममित नहीं हैं, और समग्र सटीकता के बजाय, विभिन्न प्रकार | बाइनरी वर्गीकरण एक व्यावहारिक स्थिति पर लागू होने वाला [[द्विभाजन]] है। कई व्यावहारिक बाइनरी वर्गीकरण समस्याओं में, दोनों समूह सममित नहीं हैं, और समग्र सटीकता के बजाय, विभिन्न प्रकार, और प्रकार, त्रुटियों का सापेक्ष अनुपात रुचि का है। उदाहरण के लिए, चिकित्सा परीक्षण में, किसी बीमारी का तब पता लगाना जब वह उपस्थित न हो (''गलत घनात्मक और गलत ऋणात्मक''#गलत घनात्मक त्रुटि'') किसी बीमारी के उपस्थित होने पर उसका पता न लगाना (''गलत घनात्मक और गलत घनात्मक त्रुटि'') से अलग माना जाता है। फाल्स ऋणात्मक#गलत ऋणात्मक त्रुटि'')। | ||
==सांख्यिकीय बाइनरी वर्गीकरण== | ==सांख्यिकीय बाइनरी वर्गीकरण== | ||
सांख्यिकीय वर्गीकरण [[ यंत्र अधिगम ]] में अध्ययन की जाने वाली एक समस्या है। यह एक प्रकार की पर्यवेक्षित शिक्षा है, मशीन लर्निंग की एक विधि जहां श्रेणियां पूर्वनिर्धारित होती हैं, और नई संभाव्य टिप्पणियों को उक्त श्रेणियों में वर्गीकृत करने के लिए उपयोग किया जाता है। जब केवल दो श्रेणियां होती हैं तो समस्या को सांख्यिकीय बाइनरी वर्गीकरण के रूप में जाना जाता है। | सांख्यिकीय वर्गीकरण [[ यंत्र अधिगम ]] में अध्ययन की जाने वाली एक समस्या है। यह एक प्रकार की पर्यवेक्षित शिक्षा है, मशीन लर्निंग की एक विधि जहां श्रेणियां पूर्वनिर्धारित होती हैं, और नई संभाव्य टिप्पणियों को उक्त श्रेणियों में वर्गीकृत करने के लिए उपयोग किया जाता है। जब केवल दो श्रेणियां होती हैं तो समस्या को सांख्यिकीय बाइनरी वर्गीकरण के रूप में जाना जाता है। | ||
बाइनरी वर्गीकरण के लिए | बाइनरी वर्गीकरण के लिए सामान्यतः उपयोग की जाने वाली कुछ विधियाँ हैं: | ||
* [[निर्णय वृक्ष सीखना]] | * [[निर्णय वृक्ष सीखना|डिसिशन ट्री]] | ||
* [[बेतरतीब जंगल]] | * [[बेतरतीब जंगल|रैंडम फॉरेस्ट]] (यादृच्छिक वन) | ||
* [[बायेसियन नेटवर्क]] | * [[बायेसियन नेटवर्क]] | ||
* | * सपोर्ट वेक्टर मशीन | ||
तर्कगणित प्रतिगमन (लोगिस्टिक रिग्रेशन) | |||
* [[संभार तन्त्र परावर्तन]] | * [[संभार तन्त्र परावर्तन|न्यूरल ]][[बायेसियन नेटवर्क|नेटवर्क]] | ||
* [[प्रोबिट मॉडल]] | * [[प्रोबिट मॉडल]] | ||
[[रैखिक आनुवंशिक प्रोग्रामिंग]] | |||
* [[रैखिक आनुवंशिक प्रोग्रामिंग|जेनेटिक प्रोग्रामिंग]] | |||
* [[मल्टी एक्सप्रेशन प्रोग्रामिंग]] | * [[मल्टी एक्सप्रेशन प्रोग्रामिंग]] | ||
* | * लीनियर [[आनुवंशिक प्रोग्रामिंग|जेनेटिक]] [[आनुवंशिक प्रोग्रामिंग|प्रोग्रामिंग]] | ||
अवलोकनों की संख्या, [[ फ़ीचर वेक्टर | फ़ीचर वेक्टर]] की आयामीता, डेटा में शोर और कई अन्य कारकों के आधार पर प्रत्येक क्लासिफायर केवल एक चुनिंदा डोमेन में सर्वश्रेष्ठ है। उदाहरण के लिए, यादृच्छिक वन 3डी पॉइंट क्लाउड के लिए [[ समर्थन वेक्टर यंत्र |सपोर्ट वेक्टर मशीन]] क्लासिफायर से बेहतर प्रदर्शन करते हैं।<ref>{{Cite journal|title = LiDAR और कैमरों का उपयोग करके इनडोर पॉइंट क्लाउड पर विंडो क्षेत्रों की स्वचालित पहचान|last = Zhang & Zakhor|first = Richard & Avideh|date = 2014|journal = VIP Lab Publications|citeseerx = 10.1.1.649.303}}</ref><ref>{{Cite journal |title = Simplified markov random fields for efficient semantic labeling of 3D point clouds|last = Y. Lu and C. Rasmussen|date = 2012|journal = IROS|url=http://nameless.cis.udel.edu/pubs/2012/LR12/yan_iros2012.pdf}}</ref> | |||
==बाइनरी क्लासिफायर का मूल्यांकन== | ==बाइनरी क्लासिफायर का मूल्यांकन== | ||
{{main|बाइनरी क्लासिफायर का मूल्यांकन}} | {{main|बाइनरी क्लासिफायर का मूल्यांकन}} | ||
[[Image:binary-classification-labeled.svg|thumb|220px|right|परीक्षण किए गए उदाहरणों के इस सेट में, विभाजक के बचे हुए उदाहरणों की स्थिति का परीक्षण किया जा रहा है; दाहिना आधा भाग नहीं। अंडाकार उन उदाहरणों को सीमित करता है जिन्हें एक परीक्षण एल्गोरिदम स्थिति के रूप में वर्गीकृत करता है। हरे क्षेत्र उन उदाहरणों को उजागर करते हैं जिन्हें परीक्षण एल्गोरिदम ने सही ढंग से वर्गीकृत किया है। लेबल संदर्भित करते हैं: <br />टीपी=सच्चा घनात्मक; टीएन = सच्चा ऋणात्मक; एफपी=गलत घनात्मक (प्रकार I त्रुटि); एफएन=झूठा ऋणात्मक (प्रकार II त्रुटि); टीपीआर=सच्ची घनात्मक दर निर्धारित करने के लिए उदाहरणों का सेट; एफपीआर=झूठी घनात्मक दर निर्धारित करने के लिए उदाहरणों का सेट; पीपीवी=घनात्मक पूर्वानुमानित मूल्य; एनपीवी=ऋणात्मक पूर्वानुमानित मूल्य।]]ऐसे कई मेट्रिक्स हैं जिनका उपयोग किसी क्लासिफायरियर या भविष्यवक्ता के प्रदर्शन को मापने के लिए किया जा सकता है; अलग-अलग लक्ष्यों के कारण अलग-अलग क्षेत्रों में विशिष्ट मेट्रिक्स के लिए अलग-अलग प्राथमिकताएँ होती हैं। चिकित्सा में [[संवेदनशीलता और विशिष्टता]] का | [[Image:binary-classification-labeled.svg|thumb|220px|right|परीक्षण किए गए उदाहरणों के इस सेट में, विभाजक के बचे हुए उदाहरणों की स्थिति का परीक्षण किया जा रहा है; दाहिना आधा भाग नहीं। अंडाकार उन उदाहरणों को सीमित करता है जिन्हें एक परीक्षण एल्गोरिदम स्थिति के रूप में वर्गीकृत करता है। हरे क्षेत्र उन उदाहरणों को उजागर करते हैं जिन्हें परीक्षण एल्गोरिदम ने सही ढंग से वर्गीकृत किया है। लेबल संदर्भित करते हैं: <br />टीपी=सच्चा घनात्मक; टीएन = सच्चा ऋणात्मक; एफपी=गलत घनात्मक (प्रकार I त्रुटि); एफएन=झूठा ऋणात्मक (प्रकार II त्रुटि); टीपीआर=सच्ची घनात्मक दर निर्धारित करने के लिए उदाहरणों का सेट; एफपीआर=झूठी घनात्मक दर निर्धारित करने के लिए उदाहरणों का सेट; पीपीवी=घनात्मक पूर्वानुमानित मूल्य; एनपीवी=ऋणात्मक पूर्वानुमानित मूल्य।]]ऐसे कई मेट्रिक्स हैं जिनका उपयोग किसी क्लासिफायरियर या भविष्यवक्ता के प्रदर्शन को मापने के लिए किया जा सकता है; अलग-अलग लक्ष्यों के कारण अलग-अलग क्षेत्रों में विशिष्ट मेट्रिक्स के लिए अलग-अलग प्राथमिकताएँ होती हैं। चिकित्सा में [[संवेदनशीलता और विशिष्टता]] का प्रायः उपयोग किया जाता है, जबकि सूचना पुनर्प्राप्ति में सटीकता और स्मरण को प्राथमिकता दी जाती है। एक महत्वपूर्ण अंतर उन मेट्रिक्स के बीच है जो इस बात से स्वतंत्र हैं कि जनसंख्या (व्यापकता) में प्रत्येक श्रेणी कितनी बार आती है, और मेट्रिक्स जो व्यापकता पर निर्भर करते हैं - दोनों प्रकार उपयोगी हैं, लेकिन उनके पास बहुत अलग गुण हैं। | ||
किसी विशिष्ट डेटा सेट के वर्गीकरण को देखते हुए, वास्तविक डेटा श्रेणी और निर्दिष्ट श्रेणी के चार बुनियादी संयोजन होते हैं: वास्तविक घनात्मक | किसी विशिष्ट डेटा सेट के वर्गीकरण को देखते हुए, वास्तविक डेटा श्रेणी और निर्दिष्ट श्रेणी के चार बुनियादी संयोजन होते हैं: वास्तविक घनात्मक TP (सही घनात्मक असाइनमेंट), सही ऋणात्मक TN (सही ऋणात्मक असाइनमेंट), गलत घनात्मक FP (गलत घनात्मक असाइनमेंट), और गलत ऋणात्मक FN (गलत ऋणात्मक असाइनमेंट)। | ||
{| class="wikitable" | {| class="wikitable" | ||
Line 52: | Line 53: | ||
पंक्ति अनुपात हैं: | पंक्ति अनुपात हैं: | ||
* | *ट्रू पॉजिटिव रेट (TPR) = (TP/(TP+FN)), उर्फ [[संवेदनशीलता (परीक्षण)]] या रिकॉल ([[सूचना]] पुनर्प्राप्ति)। ये ''स्थिति वाली जनसंख्या'' का अनुपात है जिसके लिए परीक्षण सही है। | ||
** | **फाल्स नेगेटिव रेट (FNR) के पूरक के साथ = (FN/(TP+FN)) | ||
* | *ट्रू पॉजिटिव रेट (TNR) = (TN/(TN+FP), उर्फ [[विशिष्टता (परीक्षण)]] (SPC), | ||
**पूरक [[झूठी सकारात्मक दर| | **पूरक [[झूठी सकारात्मक दर|फाल्स पॉजिटिव रेट]] (FPR) = (FP/(TN+FP)) के साथ, जिसे व्यापकता से स्वतंत्र भी कहा जाता है | ||
स्तंभ अनुपात हैं: | स्तंभ अनुपात हैं: | ||
*[[सकारात्मक पूर्वानुमानित मूल्य|घनात्मक पूर्वानुमानित मूल्य]] (पीपीवी, उर्फ [[परिशुद्धता (सूचना पुनर्प्राप्ति)]]) (टीपी/(टीपी+एफपी))। ये ''किसी दिए गए परीक्षा परिणाम वाली जनसंख्या'' का अनुपात है जिसके लिए परीक्षण सही है। | *[[सकारात्मक पूर्वानुमानित मूल्य|घनात्मक पूर्वानुमानित मूल्य]] (पीपीवी, उर्फ [[परिशुद्धता (सूचना पुनर्प्राप्ति)]]) (टीपी/(टीपी+एफपी))। ये ''किसी दिए गए परीक्षा परिणाम वाली जनसंख्या'' का अनुपात है जिसके लिए परीक्षण सही है। | ||
**[[झूठी खोज दर]] ( | **[[झूठी खोज दर]] (FDR) (FP/(TP+FP)) के पूरक के साथ | ||
*ऋणात्मक पूर्वानुमानित मान ( | *ऋणात्मक पूर्वानुमानित मान (NPV) (TN/(TN+FN))) | ||
**[[झूठी चूक दर]] (FOR) (FN/(TN+FN)) के पूरक के साथ, जिसे व्यापकता पर निर्भरता भी कहा जाता है। | **[[झूठी चूक दर]] (FOR) (FN/(TN+FN)) के पूरक के साथ, जिसे व्यापकता पर निर्भरता भी कहा जाता है। | ||
Line 67: | Line 68: | ||
कोई व्यक्ति अनुपातों की एक पूरक जोड़ी का अनुपात ले सकता है, जिससे नैदानिक परीक्षण में चार संभावना अनुपात (अनुपातों के दो स्तंभ अनुपात, अनुपातों के दो पंक्ति अनुपात) प्राप्त होते हैं। यह मुख्य रूप से कॉलम (स्थिति) अनुपात के लिए किया जाता है, जो नैदानिक परीक्षण में संभावना अनुपात उत्पन्न करता है। अनुपातों के इन समूहों में से किसी एक का अनुपात लेने पर अंतिम अनुपात, [[डायग्नोस्टिक ऑड्स अनुपात]] (डीओआर) प्राप्त होता है। इसे सीधे (टीपी×टीएन)/(एफपी×एफएन) = (टीपी/एफएन)/(एफपी/टीएन) के रूप में भी परिभाषित किया जा सकता है; इसकी एक उपयोगी व्याख्या है - एक [[विषम अनुपात]] के रूप में - और यह व्यापकता-स्वतंत्र है। | कोई व्यक्ति अनुपातों की एक पूरक जोड़ी का अनुपात ले सकता है, जिससे नैदानिक परीक्षण में चार संभावना अनुपात (अनुपातों के दो स्तंभ अनुपात, अनुपातों के दो पंक्ति अनुपात) प्राप्त होते हैं। यह मुख्य रूप से कॉलम (स्थिति) अनुपात के लिए किया जाता है, जो नैदानिक परीक्षण में संभावना अनुपात उत्पन्न करता है। अनुपातों के इन समूहों में से किसी एक का अनुपात लेने पर अंतिम अनुपात, [[डायग्नोस्टिक ऑड्स अनुपात]] (डीओआर) प्राप्त होता है। इसे सीधे (टीपी×टीएन)/(एफपी×एफएन) = (टीपी/एफएन)/(एफपी/टीएन) के रूप में भी परिभाषित किया जा सकता है; इसकी एक उपयोगी व्याख्या है - एक [[विषम अनुपात]] के रूप में - और यह व्यापकता-स्वतंत्र है। | ||
कई अन्य मेट्रिक्स हैं, सबसे सरल सटीकता और परिशुद्धता#बाइनरी वर्गीकरण या फ्रैक्शन करेक्ट (एफसी) में, जो सही ढंग से वर्गीकृत किए गए सभी उदाहरणों के अंश को मापता है; पूरक भिन्न भिन्न (FiC) है। [[एफ-स्कोर]] वजन के विकल्प के माध्यम से सटीकता और रिकॉल को एक संख्या में जोड़ता है, जो कि संतुलित एफ-स्कोर (एफ [[F1 स्कोर]]) के समान होता है। कुछ मेट्रिक्स [[प्रतिगमन गुणांक]] से आते हैं: [[चिह्नितता]] और सूचना, और उनका ज्यामितीय माध्य, [[मैथ्यूज सहसंबंध गुणांक]]। अन्य मेट्रिक्स में यूडेन का जे आँकड़ा, [[अनिश्चितता गुणांक]], फी गुणांक और कोहेन का कप्पा | कई अन्य मेट्रिक्स हैं, सबसे सरल सटीकता और परिशुद्धता#बाइनरी वर्गीकरण या फ्रैक्शन करेक्ट (एफसी) में, जो सही ढंग से वर्गीकृत किए गए सभी उदाहरणों के अंश को मापता है; पूरक भिन्न भिन्न (FiC) है। [[एफ-स्कोर]] वजन के विकल्प के माध्यम से सटीकता और रिकॉल को एक संख्या में जोड़ता है, जो कि संतुलित एफ-स्कोर (एफ [[F1 स्कोर]]) के समान होता है। कुछ मेट्रिक्स [[प्रतिगमन गुणांक]] से आते हैं: [[चिह्नितता]] और सूचना, और उनका ज्यामितीय माध्य, [[मैथ्यूज सहसंबंध गुणांक]]। अन्य मेट्रिक्स में यूडेन का जे आँकड़ा, [[अनिश्चितता गुणांक]], फी गुणांक और कोहेन का कप्पा सम्मिलित हैं। | ||
==निरंतर मानों को बाइनरी में परिवर्तित करना== | ==निरंतर मानों को बाइनरी में परिवर्तित करना== | ||
ऐसे परीक्षण जिनके परिणाम निरंतर मान वाले होते हैं, जैसे कि अधिकांश रक्त मान, कटऑफ (संदर्भ मान) को परिभाषित करके कृत्रिम रूप से बाइनरी बनाया जा सकता है, परीक्षण के परिणाम को [[सकारात्मक या नकारात्मक परीक्षण|घनात्मक या ऋणात्मक परीक्षण]] के रूप में नामित किया जा सकता है, यह इस बात पर निर्भर करता है कि परिणामी मान इससे अधिक है या कम है। कट जाना। | ऐसे परीक्षण जिनके परिणाम निरंतर मान वाले होते हैं, जैसे कि अधिकांश रक्त मान, कटऑफ (संदर्भ मान) को परिभाषित करके कृत्रिम रूप से बाइनरी बनाया जा सकता है, परीक्षण के परिणाम को [[सकारात्मक या नकारात्मक परीक्षण|घनात्मक या ऋणात्मक परीक्षण]] के रूप में नामित किया जा सकता है, यह इस बात पर निर्भर करता है कि परिणामी मान इससे अधिक है या कम है। कट जाना। | ||
हालाँकि, इस तरह के रूपांतरण से जानकारी का नुकसान होता है, क्योंकि परिणामी बाइनरी वर्गीकरण यह नहीं बताता है कि कोई मान कटऑफ से कितना ऊपर या नीचे है। नतीजतन, कटऑफ के करीब एक निरंतर मूल्य को बाइनरी में परिवर्तित करते समय, परिणामी घनात्मक पूर्वानुमानित मूल्य या ऋणात्मक पूर्वानुमानित मूल्य आम तौर पर निरंतर मूल्य से सीधे दिए गए पूर्वानुमानित मूल्य से अधिक होता है। ऐसे | हालाँकि, इस तरह के रूपांतरण से जानकारी का नुकसान होता है, क्योंकि परिणामी बाइनरी वर्गीकरण यह नहीं बताता है कि कोई मान कटऑफ से कितना ऊपर या नीचे है। नतीजतन, कटऑफ के करीब एक निरंतर मूल्य को बाइनरी में परिवर्तित करते समय, परिणामी घनात्मक पूर्वानुमानित मूल्य या ऋणात्मक पूर्वानुमानित मूल्य आम तौर पर निरंतर मूल्य से सीधे दिए गए पूर्वानुमानित मूल्य से अधिक होता है। ऐसे परिस्थितियो में, परीक्षण के घनात्मक या ऋणात्मक होने का पदनाम अनुचित रूप से उच्च निश्चितता का आभास देता है, जबकि मूल्य वास्तव में अनिश्चितता के अंतराल में होता है। उदाहरण के लिए, [[ह्यूमन कोरिओनिक गोनाडोट्रोपिन]] की मूत्र सांद्रता के निरंतर मूल्य के साथ, एक मूत्र [[गर्भावस्था परीक्षण]] जो एचसीजी के 52 एमआईयू/एमएल को मापता है, कटऑफ के रूप में 50 एमआईयू/एमएल के साथ घनात्मक दिखा सकता है, लेकिन वास्तव में अनिश्चितता के अंतराल में है, जो केवल मूल निरंतर मूल्य जानने से ही स्पष्ट हो सकता है। दूसरी ओर, कटऑफ से बहुत दूर एक परीक्षण परिणाम में आम तौर पर परिणामी घनात्मक या ऋणात्मक पूर्वानुमानित मूल्य होता है जो निरंतर मूल्य से दिए गए पूर्वानुमानित मूल्य से कम होता है। उदाहरण के लिए, 200,000 एमआईयू/एमएल का मूत्र एचसीजी मान गर्भावस्था की बहुत अधिक संभावना प्रदान करता है, लेकिन बाइनरी मूल्यों में रूपांतरण के परिणामस्वरूप यह 52 एमआईयू/एमएल के समान ही घनात्मक दिखता है। | ||
==यह भी देखें== | ==यह भी देखें== |
Revision as of 22:30, 27 July 2023
बाइनरी वर्गीकरण एक वर्गीकरण नियम के आधार पर एक समुच्चय (गणित) के तत्वों को दो समूहों (प्रत्येक को वर्ग कहा जाता है) में सांख्यिकीय वर्गीकरण का कार्य है। विशिष्ट द्विआधारी वर्गीकरण समस्याओं में सम्मिलित हैं:
- यह निर्धारित करने के लिए चिकित्सा परीक्षण कि मरीज को कोई बीमारी है या नहीं;
- उद्योग में गुणवत्ता नियंत्रण, यह तय करना कि क्या कोई विनिर्देश पूरा किया गया है;
- सूचना पुनर्प्राप्ति में, यह तय करना कि कोई पृष्ठ खोज के परिणाम सेट में होना चाहिए या नहीं।
बाइनरी वर्गीकरण एक व्यावहारिक स्थिति पर लागू होने वाला द्विभाजन है। कई व्यावहारिक बाइनरी वर्गीकरण समस्याओं में, दोनों समूह सममित नहीं हैं, और समग्र सटीकता के बजाय, विभिन्न प्रकार, और प्रकार, त्रुटियों का सापेक्ष अनुपात रुचि का है। उदाहरण के लिए, चिकित्सा परीक्षण में, किसी बीमारी का तब पता लगाना जब वह उपस्थित न हो (गलत घनात्मक और गलत ऋणात्मक#गलत घनात्मक त्रुटि) किसी बीमारी के उपस्थित होने पर उसका पता न लगाना (गलत घनात्मक और गलत घनात्मक त्रुटि) से अलग माना जाता है। फाल्स ऋणात्मक#गलत ऋणात्मक त्रुटि)।
सांख्यिकीय बाइनरी वर्गीकरण
सांख्यिकीय वर्गीकरण यंत्र अधिगम में अध्ययन की जाने वाली एक समस्या है। यह एक प्रकार की पर्यवेक्षित शिक्षा है, मशीन लर्निंग की एक विधि जहां श्रेणियां पूर्वनिर्धारित होती हैं, और नई संभाव्य टिप्पणियों को उक्त श्रेणियों में वर्गीकृत करने के लिए उपयोग किया जाता है। जब केवल दो श्रेणियां होती हैं तो समस्या को सांख्यिकीय बाइनरी वर्गीकरण के रूप में जाना जाता है।
बाइनरी वर्गीकरण के लिए सामान्यतः उपयोग की जाने वाली कुछ विधियाँ हैं:
- डिसिशन ट्री
- रैंडम फॉरेस्ट (यादृच्छिक वन)
- बायेसियन नेटवर्क
- सपोर्ट वेक्टर मशीन
तर्कगणित प्रतिगमन (लोगिस्टिक रिग्रेशन)
अवलोकनों की संख्या, फ़ीचर वेक्टर की आयामीता, डेटा में शोर और कई अन्य कारकों के आधार पर प्रत्येक क्लासिफायर केवल एक चुनिंदा डोमेन में सर्वश्रेष्ठ है। उदाहरण के लिए, यादृच्छिक वन 3डी पॉइंट क्लाउड के लिए सपोर्ट वेक्टर मशीन क्लासिफायर से बेहतर प्रदर्शन करते हैं।[1][2]
बाइनरी क्लासिफायर का मूल्यांकन
ऐसे कई मेट्रिक्स हैं जिनका उपयोग किसी क्लासिफायरियर या भविष्यवक्ता के प्रदर्शन को मापने के लिए किया जा सकता है; अलग-अलग लक्ष्यों के कारण अलग-अलग क्षेत्रों में विशिष्ट मेट्रिक्स के लिए अलग-अलग प्राथमिकताएँ होती हैं। चिकित्सा में संवेदनशीलता और विशिष्टता का प्रायः उपयोग किया जाता है, जबकि सूचना पुनर्प्राप्ति में सटीकता और स्मरण को प्राथमिकता दी जाती है। एक महत्वपूर्ण अंतर उन मेट्रिक्स के बीच है जो इस बात से स्वतंत्र हैं कि जनसंख्या (व्यापकता) में प्रत्येक श्रेणी कितनी बार आती है, और मेट्रिक्स जो व्यापकता पर निर्भर करते हैं - दोनों प्रकार उपयोगी हैं, लेकिन उनके पास बहुत अलग गुण हैं।
किसी विशिष्ट डेटा सेट के वर्गीकरण को देखते हुए, वास्तविक डेटा श्रेणी और निर्दिष्ट श्रेणी के चार बुनियादी संयोजन होते हैं: वास्तविक घनात्मक TP (सही घनात्मक असाइनमेंट), सही ऋणात्मक TN (सही ऋणात्मक असाइनमेंट), गलत घनात्मक FP (गलत घनात्मक असाइनमेंट), और गलत ऋणात्मक FN (गलत ऋणात्मक असाइनमेंट)।
Assigned Actual
|
Test outcome positive | Test outcome negative |
---|---|---|
Condition positive | True positive | False negative |
Condition negative | False positive | True negative |
इन्हें 2×2 आकस्मिक तालिका में व्यवस्थित किया जा सकता है, जिसमें वास्तविक मूल्य के अनुरूप कॉलम होंगे - स्थिति घनात्मक या स्थिति ऋणात्मक - और वर्गीकरण मूल्य के अनुरूप पंक्तियाँ - परीक्षण परिणाम घनात्मक या परीक्षण परिणाम ऋणात्मक।
आठ बुनियादी अनुपात
इस तालिका से आठ बुनियादी अनुपातों की गणना की जा सकती है, जो चार पूरक जोड़े (प्रत्येक जोड़े का योग 1) में आते हैं। इन्हें चार संख्याओं में से प्रत्येक को उसकी पंक्ति या स्तंभ के योग से विभाजित करके प्राप्त किया जाता है, जिससे आठ संख्याएँ प्राप्त होती हैं, जिन्हें सामान्य रूप से वास्तविक घनात्मक पंक्ति अनुपात या गलत ऋणात्मक स्तंभ अनुपात के रूप में संदर्भित किया जा सकता है।
इस प्रकार स्तंभ अनुपात के दो जोड़े और पंक्ति अनुपात के दो जोड़े हैं, और प्रत्येक जोड़े में से एक अनुपात चुनकर कोई इन्हें चार संख्याओं के साथ सारांशित कर सकता है - अन्य चार संख्याएँ पूरक हैं।
पंक्ति अनुपात हैं:
- ट्रू पॉजिटिव रेट (TPR) = (TP/(TP+FN)), उर्फ संवेदनशीलता (परीक्षण) या रिकॉल (सूचना पुनर्प्राप्ति)। ये स्थिति वाली जनसंख्या का अनुपात है जिसके लिए परीक्षण सही है।
- फाल्स नेगेटिव रेट (FNR) के पूरक के साथ = (FN/(TP+FN))
- ट्रू पॉजिटिव रेट (TNR) = (TN/(TN+FP), उर्फ विशिष्टता (परीक्षण) (SPC),
- पूरक फाल्स पॉजिटिव रेट (FPR) = (FP/(TN+FP)) के साथ, जिसे व्यापकता से स्वतंत्र भी कहा जाता है
स्तंभ अनुपात हैं:
- घनात्मक पूर्वानुमानित मूल्य (पीपीवी, उर्फ परिशुद्धता (सूचना पुनर्प्राप्ति)) (टीपी/(टीपी+एफपी))। ये किसी दिए गए परीक्षा परिणाम वाली जनसंख्या का अनुपात है जिसके लिए परीक्षण सही है।
- झूठी खोज दर (FDR) (FP/(TP+FP)) के पूरक के साथ
- ऋणात्मक पूर्वानुमानित मान (NPV) (TN/(TN+FN)))
- झूठी चूक दर (FOR) (FN/(TN+FN)) के पूरक के साथ, जिसे व्यापकता पर निर्भरता भी कहा जाता है।
नैदानिक परीक्षण में, उपयोग किए जाने वाले मुख्य अनुपात वास्तविक स्तंभ अनुपात हैं - वास्तविक घनात्मक दर और वास्तविक ऋणात्मक दर - जहां उन्हें संवेदनशीलता और विशिष्टता के रूप में जाना जाता है। सूचनात्मक पुनर्प्राप्ति में, मुख्य अनुपात वास्तविक घनात्मक अनुपात (पंक्ति और स्तंभ) हैं - घनात्मक पूर्वानुमानित मूल्य और वास्तविक घनात्मक दर - जहां उन्हें सटीकता और रिकॉल के रूप में जाना जाता है।
कोई व्यक्ति अनुपातों की एक पूरक जोड़ी का अनुपात ले सकता है, जिससे नैदानिक परीक्षण में चार संभावना अनुपात (अनुपातों के दो स्तंभ अनुपात, अनुपातों के दो पंक्ति अनुपात) प्राप्त होते हैं। यह मुख्य रूप से कॉलम (स्थिति) अनुपात के लिए किया जाता है, जो नैदानिक परीक्षण में संभावना अनुपात उत्पन्न करता है। अनुपातों के इन समूहों में से किसी एक का अनुपात लेने पर अंतिम अनुपात, डायग्नोस्टिक ऑड्स अनुपात (डीओआर) प्राप्त होता है। इसे सीधे (टीपी×टीएन)/(एफपी×एफएन) = (टीपी/एफएन)/(एफपी/टीएन) के रूप में भी परिभाषित किया जा सकता है; इसकी एक उपयोगी व्याख्या है - एक विषम अनुपात के रूप में - और यह व्यापकता-स्वतंत्र है।
कई अन्य मेट्रिक्स हैं, सबसे सरल सटीकता और परिशुद्धता#बाइनरी वर्गीकरण या फ्रैक्शन करेक्ट (एफसी) में, जो सही ढंग से वर्गीकृत किए गए सभी उदाहरणों के अंश को मापता है; पूरक भिन्न भिन्न (FiC) है। एफ-स्कोर वजन के विकल्प के माध्यम से सटीकता और रिकॉल को एक संख्या में जोड़ता है, जो कि संतुलित एफ-स्कोर (एफ F1 स्कोर) के समान होता है। कुछ मेट्रिक्स प्रतिगमन गुणांक से आते हैं: चिह्नितता और सूचना, और उनका ज्यामितीय माध्य, मैथ्यूज सहसंबंध गुणांक। अन्य मेट्रिक्स में यूडेन का जे आँकड़ा, अनिश्चितता गुणांक, फी गुणांक और कोहेन का कप्पा सम्मिलित हैं।
निरंतर मानों को बाइनरी में परिवर्तित करना
ऐसे परीक्षण जिनके परिणाम निरंतर मान वाले होते हैं, जैसे कि अधिकांश रक्त मान, कटऑफ (संदर्भ मान) को परिभाषित करके कृत्रिम रूप से बाइनरी बनाया जा सकता है, परीक्षण के परिणाम को घनात्मक या ऋणात्मक परीक्षण के रूप में नामित किया जा सकता है, यह इस बात पर निर्भर करता है कि परिणामी मान इससे अधिक है या कम है। कट जाना।
हालाँकि, इस तरह के रूपांतरण से जानकारी का नुकसान होता है, क्योंकि परिणामी बाइनरी वर्गीकरण यह नहीं बताता है कि कोई मान कटऑफ से कितना ऊपर या नीचे है। नतीजतन, कटऑफ के करीब एक निरंतर मूल्य को बाइनरी में परिवर्तित करते समय, परिणामी घनात्मक पूर्वानुमानित मूल्य या ऋणात्मक पूर्वानुमानित मूल्य आम तौर पर निरंतर मूल्य से सीधे दिए गए पूर्वानुमानित मूल्य से अधिक होता है। ऐसे परिस्थितियो में, परीक्षण के घनात्मक या ऋणात्मक होने का पदनाम अनुचित रूप से उच्च निश्चितता का आभास देता है, जबकि मूल्य वास्तव में अनिश्चितता के अंतराल में होता है। उदाहरण के लिए, ह्यूमन कोरिओनिक गोनाडोट्रोपिन की मूत्र सांद्रता के निरंतर मूल्य के साथ, एक मूत्र गर्भावस्था परीक्षण जो एचसीजी के 52 एमआईयू/एमएल को मापता है, कटऑफ के रूप में 50 एमआईयू/एमएल के साथ घनात्मक दिखा सकता है, लेकिन वास्तव में अनिश्चितता के अंतराल में है, जो केवल मूल निरंतर मूल्य जानने से ही स्पष्ट हो सकता है। दूसरी ओर, कटऑफ से बहुत दूर एक परीक्षण परिणाम में आम तौर पर परिणामी घनात्मक या ऋणात्मक पूर्वानुमानित मूल्य होता है जो निरंतर मूल्य से दिए गए पूर्वानुमानित मूल्य से कम होता है। उदाहरण के लिए, 200,000 एमआईयू/एमएल का मूत्र एचसीजी मान गर्भावस्था की बहुत अधिक संभावना प्रदान करता है, लेकिन बाइनरी मूल्यों में रूपांतरण के परिणामस्वरूप यह 52 एमआईयू/एमएल के समान ही घनात्मक दिखता है।
यह भी देखें
- बायेसियन अनुमान#उदाहरण
- वर्गीकरण नियम
- असमंजस का जाल
- पता लगाने का सिद्धांत
- कर्नेल विधियाँ
- बहुवर्ग वर्गीकरण
- मल्टी-लेबल वर्गीकरण
- एक-वर्ग वर्गीकरण
- अभियोजक की भ्रांति
- प्राप्तकर्ता परिचालन विशेषता
- थ्रेसहोल्डिंग (छवि प्रसंस्करण)
- अनिश्चितता गुणांक, उर्फ प्रवीणता
- गुणात्मक संपत्ति
- परिशुद्धता और स्मरण (समकक्ष वर्गीकरण स्कीमा)
संदर्भ
- ↑ Zhang & Zakhor, Richard & Avideh (2014). "LiDAR और कैमरों का उपयोग करके इनडोर पॉइंट क्लाउड पर विंडो क्षेत्रों की स्वचालित पहचान". VIP Lab Publications. CiteSeerX 10.1.1.649.303.
- ↑ Y. Lu and C. Rasmussen (2012). "Simplified markov random fields for efficient semantic labeling of 3D point clouds" (PDF). IROS.
ग्रन्थसूची
- Nello Cristianini and John Shawe-Taylor. An Introduction to Support Vector Machines and other kernel-based learning methods. Cambridge University Press, 2000. ISBN 0-521-78019-5 ([1] SVM Book)
- John Shawe-Taylor and Nello Cristianini. Kernel Methods for Pattern Analysis. Cambridge University Press, 2004. ISBN 0-521-81397-2 (Website for the book)
- Bernhard Schölkopf and A. J. Smola: Learning with Kernels. MIT Press, Cambridge, Massachusetts, 2002. ISBN 0-262-19475-9