द्विआधारी वर्गीकरण: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
Line 1: Line 1:
बाइनरी वर्गीकरण एक [[वर्गीकरण नियम]] के आधार पर एक [[सेट (गणित)]] के तत्वों को दो समूहों (प्रत्येक को ''वर्ग'' कहा जाता है) में [[सांख्यिकीय वर्गीकरण]] का कार्य है। विशिष्ट द्विआधारी वर्गीकरण समस्याओं में शामिल हैं:
बाइनरी वर्गीकरण एक [[वर्गीकरण नियम]] के आधार पर एक [[सेट (गणित)|समुच्चय (गणित)]] के तत्वों को दो समूहों (प्रत्येक को ''वर्ग'' कहा जाता है) में [[सांख्यिकीय वर्गीकरण]] का कार्य है। विशिष्ट द्विआधारी वर्गीकरण समस्याओं में सम्मिलित हैं:
* यह निर्धारित करने के लिए चिकित्सा परीक्षण कि मरीज को कोई बीमारी है या नहीं;
* यह निर्धारित करने के लिए चिकित्सा परीक्षण कि मरीज को कोई बीमारी है या नहीं;
* उद्योग में [[गुणवत्ता नियंत्रण]], यह तय करना कि क्या कोई विनिर्देश पूरा किया गया है;
* उद्योग में [[गुणवत्ता नियंत्रण]], यह तय करना कि क्या कोई विनिर्देश पूरा किया गया है;
* सूचना पुनर्प्राप्ति में, यह तय करना कि कोई पृष्ठ खोज के [[परिणाम सेट]] में होना चाहिए या नहीं।
* सूचना पुनर्प्राप्ति में, यह तय करना कि कोई पृष्ठ खोज के [[परिणाम सेट]] में होना चाहिए या नहीं।


बाइनरी वर्गीकरण एक व्यावहारिक स्थिति पर लागू होने वाला [[द्विभाजन]] है। कई व्यावहारिक बाइनरी वर्गीकरण समस्याओं में, दोनों समूह सममित नहीं हैं, और समग्र सटीकता के बजाय, विभिन्न प्रकार I और प्रकार II त्रुटियों का सापेक्ष अनुपात रुचि का है। उदाहरण के लिए, चिकित्सा परीक्षण में, किसी बीमारी का तब पता लगाना जब वह मौजूद न हो (''गलत घनात्मक और गलत ऋणात्मक''#गलत घनात्मक त्रुटि'') किसी बीमारी के मौजूद होने पर उसका पता न लगाना (''गलत घनात्मक और गलत घनात्मक त्रुटि'') से अलग माना जाता है। झूठी ऋणात्मक#गलत ऋणात्मक त्रुटि'')।
बाइनरी वर्गीकरण एक व्यावहारिक स्थिति पर लागू होने वाला [[द्विभाजन]] है। कई व्यावहारिक बाइनरी वर्गीकरण समस्याओं में, दोनों समूह सममित नहीं हैं, और समग्र सटीकता के बजाय, विभिन्न प्रकार, और प्रकार, त्रुटियों का सापेक्ष अनुपात रुचि का है। उदाहरण के लिए, चिकित्सा परीक्षण में, किसी बीमारी का तब पता लगाना जब वह उपस्थित न हो (''गलत घनात्मक और गलत ऋणात्मक''#गलत घनात्मक त्रुटि'') किसी बीमारी के उपस्थित होने पर उसका पता न लगाना (''गलत घनात्मक और गलत घनात्मक त्रुटि'') से अलग माना जाता है। फाल्स ऋणात्मक#गलत ऋणात्मक त्रुटि'')।


==सांख्यिकीय बाइनरी वर्गीकरण==
==सांख्यिकीय बाइनरी वर्गीकरण==
सांख्यिकीय वर्गीकरण [[ यंत्र अधिगम ]] में अध्ययन की जाने वाली एक समस्या है। यह एक प्रकार की पर्यवेक्षित शिक्षा है, मशीन लर्निंग की एक विधि जहां श्रेणियां पूर्वनिर्धारित होती हैं, और नई संभाव्य टिप्पणियों को उक्त श्रेणियों में वर्गीकृत करने के लिए उपयोग किया जाता है। जब केवल दो श्रेणियां होती हैं तो समस्या को सांख्यिकीय बाइनरी वर्गीकरण के रूप में जाना जाता है।
सांख्यिकीय वर्गीकरण [[ यंत्र अधिगम ]] में अध्ययन की जाने वाली एक समस्या है। यह एक प्रकार की पर्यवेक्षित शिक्षा है, मशीन लर्निंग की एक विधि जहां श्रेणियां पूर्वनिर्धारित होती हैं, और नई संभाव्य टिप्पणियों को उक्त श्रेणियों में वर्गीकृत करने के लिए उपयोग किया जाता है। जब केवल दो श्रेणियां होती हैं तो समस्या को सांख्यिकीय बाइनरी वर्गीकरण के रूप में जाना जाता है।


बाइनरी वर्गीकरण के लिए आमतौर पर उपयोग की जाने वाली कुछ विधियाँ हैं:
बाइनरी वर्गीकरण के लिए सामान्यतः उपयोग की जाने वाली कुछ विधियाँ हैं:
* [[निर्णय वृक्ष सीखना]]
* [[निर्णय वृक्ष सीखना|डिसिशन ट्री]]
* [[बेतरतीब जंगल]]
* [[बेतरतीब जंगल|रैंडम फॉरेस्ट]] (यादृच्छिक वन)
* [[बायेसियन नेटवर्क]]
* [[बायेसियन नेटवर्क]]
* समर्थन वेक्टर मशीन
* सपोर्ट वेक्टर मशीन
* तंत्रिका - तंत्र
तर्कगणित प्रतिगमन (लोगिस्टिक रिग्रेशन)
* [[संभार तन्त्र परावर्तन]]
* [[संभार तन्त्र परावर्तन|न्यूरल ]][[बायेसियन नेटवर्क|नेटवर्क]]
* [[प्रोबिट मॉडल]]
* [[प्रोबिट मॉडल]]
[[रैखिक आनुवंशिक प्रोग्रामिंग]]
 
* [[रैखिक आनुवंशिक प्रोग्रामिंग|जेनेटिक प्रोग्रामिंग]]
 
* [[मल्टी एक्सप्रेशन प्रोग्रामिंग]]
* [[मल्टी एक्सप्रेशन प्रोग्रामिंग]]
* रैखिक [[आनुवंशिक प्रोग्रामिंग]]
* लीनियर [[आनुवंशिक प्रोग्रामिंग|जेनेटिक]] [[आनुवंशिक प्रोग्रामिंग|प्रोग्रामिंग]]
 
अवलोकनों की संख्या, [[ फ़ीचर वेक्टर ]] की आयामीता, डेटा में शोर और कई अन्य कारकों के आधार पर प्रत्येक क्लासिफायर केवल एक चुनिंदा डोमेन में सर्वश्रेष्ठ है। उदाहरण के लिए, यादृच्छिक वन 3डी पॉइंट क्लाउड के लिए [[ समर्थन वेक्टर यंत्र ]] क्लासिफायर से बेहतर प्रदर्शन करते हैं।<ref>{{Cite journal|title = LiDAR और कैमरों का उपयोग करके इनडोर पॉइंट क्लाउड पर विंडो क्षेत्रों की स्वचालित पहचान|last = Zhang & Zakhor|first = Richard & Avideh|date = 2014|journal = VIP Lab Publications|citeseerx = 10.1.1.649.303}}</ref><ref>{{Cite journal |title = Simplified markov random fields for efficient semantic labeling of 3D point clouds|last = Y. Lu and C. Rasmussen|date = 2012|journal = IROS|url=http://nameless.cis.udel.edu/pubs/2012/LR12/yan_iros2012.pdf}}</ref>


अवलोकनों की संख्या, [[ फ़ीचर वेक्टर | फ़ीचर वेक्टर]] की आयामीता, डेटा में शोर और कई अन्य कारकों के आधार पर प्रत्येक क्लासिफायर केवल एक चुनिंदा डोमेन में सर्वश्रेष्ठ है। उदाहरण के लिए, यादृच्छिक वन 3डी पॉइंट क्लाउड के लिए [[ समर्थन वेक्टर यंत्र |सपोर्ट वेक्टर मशीन]] क्लासिफायर से बेहतर प्रदर्शन करते हैं।<ref>{{Cite journal|title = LiDAR और कैमरों का उपयोग करके इनडोर पॉइंट क्लाउड पर विंडो क्षेत्रों की स्वचालित पहचान|last = Zhang & Zakhor|first = Richard & Avideh|date = 2014|journal = VIP Lab Publications|citeseerx = 10.1.1.649.303}}</ref><ref>{{Cite journal |title = Simplified markov random fields for efficient semantic labeling of 3D point clouds|last = Y. Lu and C. Rasmussen|date = 2012|journal = IROS|url=http://nameless.cis.udel.edu/pubs/2012/LR12/yan_iros2012.pdf}}</ref>


==बाइनरी क्लासिफायर का मूल्यांकन==
==बाइनरी क्लासिफायर का मूल्यांकन==
{{main|बाइनरी क्लासिफायर का मूल्यांकन}}
{{main|बाइनरी क्लासिफायर का मूल्यांकन}}


[[Image:binary-classification-labeled.svg|thumb|220px|right|परीक्षण किए गए उदाहरणों के इस सेट में, विभाजक के बचे हुए उदाहरणों की स्थिति का परीक्षण किया जा रहा है; दाहिना आधा भाग नहीं। अंडाकार उन उदाहरणों को सीमित करता है जिन्हें एक परीक्षण एल्गोरिदम स्थिति के रूप में वर्गीकृत करता है। हरे क्षेत्र उन उदाहरणों को उजागर करते हैं जिन्हें परीक्षण एल्गोरिदम ने सही ढंग से वर्गीकृत किया है। लेबल संदर्भित करते हैं: <br />टीपी=सच्चा घनात्मक; टीएन = सच्चा ऋणात्मक; एफपी=गलत घनात्मक (प्रकार I त्रुटि); एफएन=झूठा ऋणात्मक (प्रकार II त्रुटि); टीपीआर=सच्ची घनात्मक दर निर्धारित करने के लिए उदाहरणों का सेट; एफपीआर=झूठी घनात्मक दर निर्धारित करने के लिए उदाहरणों का सेट; पीपीवी=घनात्मक पूर्वानुमानित मूल्य; एनपीवी=ऋणात्मक पूर्वानुमानित मूल्य।]]ऐसे कई मेट्रिक्स हैं जिनका उपयोग किसी क्लासिफायरियर या भविष्यवक्ता के प्रदर्शन को मापने के लिए किया जा सकता है; अलग-अलग लक्ष्यों के कारण अलग-अलग क्षेत्रों में विशिष्ट मेट्रिक्स के लिए अलग-अलग प्राथमिकताएँ होती हैं। चिकित्सा में [[संवेदनशीलता और विशिष्टता]] का अक्सर उपयोग किया जाता है, जबकि सूचना पुनर्प्राप्ति में सटीकता और स्मरण को प्राथमिकता दी जाती है। एक महत्वपूर्ण अंतर उन मेट्रिक्स के बीच है जो इस बात से स्वतंत्र हैं कि जनसंख्या (व्यापकता) में प्रत्येक श्रेणी कितनी बार आती है, और मेट्रिक्स जो व्यापकता पर निर्भर करते हैं - दोनों प्रकार उपयोगी हैं, लेकिन उनके पास बहुत अलग गुण हैं।
[[Image:binary-classification-labeled.svg|thumb|220px|right|परीक्षण किए गए उदाहरणों के इस सेट में, विभाजक के बचे हुए उदाहरणों की स्थिति का परीक्षण किया जा रहा है; दाहिना आधा भाग नहीं। अंडाकार उन उदाहरणों को सीमित करता है जिन्हें एक परीक्षण एल्गोरिदम स्थिति के रूप में वर्गीकृत करता है। हरे क्षेत्र उन उदाहरणों को उजागर करते हैं जिन्हें परीक्षण एल्गोरिदम ने सही ढंग से वर्गीकृत किया है। लेबल संदर्भित करते हैं: <br />टीपी=सच्चा घनात्मक; टीएन = सच्चा ऋणात्मक; एफपी=गलत घनात्मक (प्रकार I त्रुटि); एफएन=झूठा ऋणात्मक (प्रकार II त्रुटि); टीपीआर=सच्ची घनात्मक दर निर्धारित करने के लिए उदाहरणों का सेट; एफपीआर=झूठी घनात्मक दर निर्धारित करने के लिए उदाहरणों का सेट; पीपीवी=घनात्मक पूर्वानुमानित मूल्य; एनपीवी=ऋणात्मक पूर्वानुमानित मूल्य।]]ऐसे कई मेट्रिक्स हैं जिनका उपयोग किसी क्लासिफायरियर या भविष्यवक्ता के प्रदर्शन को मापने के लिए किया जा सकता है; अलग-अलग लक्ष्यों के कारण अलग-अलग क्षेत्रों में विशिष्ट मेट्रिक्स के लिए अलग-अलग प्राथमिकताएँ होती हैं। चिकित्सा में [[संवेदनशीलता और विशिष्टता]] का प्रायः उपयोग किया जाता है, जबकि सूचना पुनर्प्राप्ति में सटीकता और स्मरण को प्राथमिकता दी जाती है। एक महत्वपूर्ण अंतर उन मेट्रिक्स के बीच है जो इस बात से स्वतंत्र हैं कि जनसंख्या (व्यापकता) में प्रत्येक श्रेणी कितनी बार आती है, और मेट्रिक्स जो व्यापकता पर निर्भर करते हैं - दोनों प्रकार उपयोगी हैं, लेकिन उनके पास बहुत अलग गुण हैं।


किसी विशिष्ट डेटा सेट के वर्गीकरण को देखते हुए, वास्तविक डेटा श्रेणी और निर्दिष्ट श्रेणी के चार बुनियादी संयोजन होते हैं: वास्तविक घनात्मक टीपी (सही घनात्मक असाइनमेंट), सही ऋणात्मक टीएन (सही ऋणात्मक असाइनमेंट), गलत घनात्मक एफपी (गलत घनात्मक असाइनमेंट), और गलत ऋणात्मक एफएन (गलत ऋणात्मक असाइनमेंट)।
किसी विशिष्ट डेटा सेट के वर्गीकरण को देखते हुए, वास्तविक डेटा श्रेणी और निर्दिष्ट श्रेणी के चार बुनियादी संयोजन होते हैं: वास्तविक घनात्मक TP (सही घनात्मक असाइनमेंट), सही ऋणात्मक TN (सही ऋणात्मक असाइनमेंट), गलत घनात्मक FP (गलत घनात्मक असाइनमेंट), और गलत ऋणात्मक FN (गलत ऋणात्मक असाइनमेंट)।


{| class="wikitable"
{| class="wikitable"
Line 52: Line 53:


पंक्ति अनुपात हैं:
पंक्ति अनुपात हैं:
*सच्ची घनात्मक दर (टीपीआर) = (टीपी/(टीपी+एफएन)), उर्फ ​​[[संवेदनशीलता (परीक्षण)]] या रिकॉल ([[सूचना]] पुनर्प्राप्ति)। ये ''स्थिति वाली जनसंख्या'' का अनुपात है जिसके लिए परीक्षण सही है।
*ट्रू पॉजिटिव रेट (TPR) = (TP/(TP+FN)), उर्फ ​​[[संवेदनशीलता (परीक्षण)]] या रिकॉल ([[सूचना]] पुनर्प्राप्ति)। ये ''स्थिति वाली जनसंख्या'' का अनुपात है जिसके लिए परीक्षण सही है।
**गलत ऋणात्मक दर (FNR) के पूरक के साथ = (FN/(TP+FN))
**फाल्स नेगेटिव रेट (FNR) के पूरक के साथ = (FN/(TP+FN))
*सच्ची ऋणात्मक दर (टीएनआर) = (टीएन/(टीएन+एफपी), उर्फ ​​[[विशिष्टता (परीक्षण)]] (एसपीसी),
*ट्रू पॉजिटिव रेट (TNR) = (TN/(TN+FP), उर्फ ​​[[विशिष्टता (परीक्षण)]] (SPC),
**पूरक [[झूठी सकारात्मक दर|झूठी घनात्मक दर]] (एफपीआर) = (एफपी/(टीएन+एफपी)) के साथ, जिसे व्यापकता से स्वतंत्र भी कहा जाता है
**पूरक [[झूठी सकारात्मक दर|फाल्स पॉजिटिव रेट]] (FPR) = (FP/(TN+FP)) के साथ, जिसे व्यापकता से स्वतंत्र भी कहा जाता है


स्तंभ अनुपात हैं:
स्तंभ अनुपात हैं:
*[[सकारात्मक पूर्वानुमानित मूल्य|घनात्मक पूर्वानुमानित मूल्य]] (पीपीवी, उर्फ ​​[[परिशुद्धता (सूचना पुनर्प्राप्ति)]]) (टीपी/(टीपी+एफपी))। ये ''किसी दिए गए परीक्षा परिणाम वाली जनसंख्या'' का अनुपात है जिसके लिए परीक्षण सही है।
*[[सकारात्मक पूर्वानुमानित मूल्य|घनात्मक पूर्वानुमानित मूल्य]] (पीपीवी, उर्फ ​​[[परिशुद्धता (सूचना पुनर्प्राप्ति)]]) (टीपी/(टीपी+एफपी))। ये ''किसी दिए गए परीक्षा परिणाम वाली जनसंख्या'' का अनुपात है जिसके लिए परीक्षण सही है।
**[[झूठी खोज दर]] (एफडीआर) (एफपी/(टीपी+एफपी)) के पूरक के साथ
**[[झूठी खोज दर]] (FDR) (FP/(TP+FP)) के पूरक के साथ
*ऋणात्मक पूर्वानुमानित मान (एनपीवी) (टीएन/(टीएन+एफएन))
*ऋणात्मक पूर्वानुमानित मान (NPV) (TN/(TN+FN)))
**[[झूठी चूक दर]] (FOR) (FN/(TN+FN)) के पूरक के साथ, जिसे व्यापकता पर निर्भरता भी कहा जाता है।
**[[झूठी चूक दर]] (FOR) (FN/(TN+FN)) के पूरक के साथ, जिसे व्यापकता पर निर्भरता भी कहा जाता है।


Line 67: Line 68:
कोई व्यक्ति अनुपातों की एक पूरक जोड़ी का अनुपात ले सकता है, जिससे नैदानिक ​​​​परीक्षण में चार संभावना अनुपात (अनुपातों के दो स्तंभ अनुपात, अनुपातों के दो पंक्ति अनुपात) प्राप्त होते हैं। यह मुख्य रूप से कॉलम (स्थिति) अनुपात के लिए किया जाता है, जो नैदानिक ​​​​परीक्षण में संभावना अनुपात उत्पन्न करता है। अनुपातों के इन समूहों में से किसी एक का अनुपात लेने पर अंतिम अनुपात, [[डायग्नोस्टिक ऑड्स अनुपात]] (डीओआर) प्राप्त होता है। इसे सीधे (टीपी×टीएन)/(एफपी×एफएन) = (टीपी/एफएन)/(एफपी/टीएन) के रूप में भी परिभाषित किया जा सकता है; इसकी एक उपयोगी व्याख्या है - एक [[विषम अनुपात]] के रूप में - और यह व्यापकता-स्वतंत्र है।
कोई व्यक्ति अनुपातों की एक पूरक जोड़ी का अनुपात ले सकता है, जिससे नैदानिक ​​​​परीक्षण में चार संभावना अनुपात (अनुपातों के दो स्तंभ अनुपात, अनुपातों के दो पंक्ति अनुपात) प्राप्त होते हैं। यह मुख्य रूप से कॉलम (स्थिति) अनुपात के लिए किया जाता है, जो नैदानिक ​​​​परीक्षण में संभावना अनुपात उत्पन्न करता है। अनुपातों के इन समूहों में से किसी एक का अनुपात लेने पर अंतिम अनुपात, [[डायग्नोस्टिक ऑड्स अनुपात]] (डीओआर) प्राप्त होता है। इसे सीधे (टीपी×टीएन)/(एफपी×एफएन) = (टीपी/एफएन)/(एफपी/टीएन) के रूप में भी परिभाषित किया जा सकता है; इसकी एक उपयोगी व्याख्या है - एक [[विषम अनुपात]] के रूप में - और यह व्यापकता-स्वतंत्र है।


कई अन्य मेट्रिक्स हैं, सबसे सरल सटीकता और परिशुद्धता#बाइनरी वर्गीकरण या फ्रैक्शन करेक्ट (एफसी) में, जो सही ढंग से वर्गीकृत किए गए सभी उदाहरणों के अंश को मापता है; पूरक भिन्न भिन्न (FiC) है। [[एफ-स्कोर]] वजन के विकल्प के माध्यम से सटीकता और रिकॉल को एक संख्या में जोड़ता है, जो कि संतुलित एफ-स्कोर (एफ [[F1 स्कोर]]) के समान होता है। कुछ मेट्रिक्स [[प्रतिगमन गुणांक]] से आते हैं: [[चिह्नितता]] और सूचना, और उनका ज्यामितीय माध्य, [[मैथ्यूज सहसंबंध गुणांक]]। अन्य मेट्रिक्स में यूडेन का जे आँकड़ा, [[अनिश्चितता गुणांक]], फी गुणांक और कोहेन का कप्पा शामिल हैं।
कई अन्य मेट्रिक्स हैं, सबसे सरल सटीकता और परिशुद्धता#बाइनरी वर्गीकरण या फ्रैक्शन करेक्ट (एफसी) में, जो सही ढंग से वर्गीकृत किए गए सभी उदाहरणों के अंश को मापता है; पूरक भिन्न भिन्न (FiC) है। [[एफ-स्कोर]] वजन के विकल्प के माध्यम से सटीकता और रिकॉल को एक संख्या में जोड़ता है, जो कि संतुलित एफ-स्कोर (एफ [[F1 स्कोर]]) के समान होता है। कुछ मेट्रिक्स [[प्रतिगमन गुणांक]] से आते हैं: [[चिह्नितता]] और सूचना, और उनका ज्यामितीय माध्य, [[मैथ्यूज सहसंबंध गुणांक]]। अन्य मेट्रिक्स में यूडेन का जे आँकड़ा, [[अनिश्चितता गुणांक]], फी गुणांक और कोहेन का कप्पा सम्मिलित हैं।


==निरंतर मानों को बाइनरी में परिवर्तित करना==
==निरंतर मानों को बाइनरी में परिवर्तित करना==
ऐसे परीक्षण जिनके परिणाम निरंतर मान वाले होते हैं, जैसे कि अधिकांश रक्त मान, कटऑफ (संदर्भ मान) को परिभाषित करके कृत्रिम रूप से बाइनरी बनाया जा सकता है, परीक्षण के परिणाम को [[सकारात्मक या नकारात्मक परीक्षण|घनात्मक या ऋणात्मक परीक्षण]] के रूप में नामित किया जा सकता है, यह इस बात पर निर्भर करता है कि परिणामी मान इससे अधिक है या कम है। कट जाना।
ऐसे परीक्षण जिनके परिणाम निरंतर मान वाले होते हैं, जैसे कि अधिकांश रक्त मान, कटऑफ (संदर्भ मान) को परिभाषित करके कृत्रिम रूप से बाइनरी बनाया जा सकता है, परीक्षण के परिणाम को [[सकारात्मक या नकारात्मक परीक्षण|घनात्मक या ऋणात्मक परीक्षण]] के रूप में नामित किया जा सकता है, यह इस बात पर निर्भर करता है कि परिणामी मान इससे अधिक है या कम है। कट जाना।


हालाँकि, इस तरह के रूपांतरण से जानकारी का नुकसान होता है, क्योंकि परिणामी बाइनरी वर्गीकरण यह नहीं बताता है कि कोई मान कटऑफ से कितना ऊपर या नीचे है। नतीजतन, कटऑफ के करीब एक निरंतर मूल्य को बाइनरी में परिवर्तित करते समय, परिणामी घनात्मक पूर्वानुमानित मूल्य या ऋणात्मक पूर्वानुमानित मूल्य आम तौर पर निरंतर मूल्य से सीधे दिए गए पूर्वानुमानित मूल्य से अधिक होता है। ऐसे मामलों में, परीक्षण के घनात्मक या ऋणात्मक होने का पदनाम अनुचित रूप से उच्च निश्चितता का आभास देता है, जबकि मूल्य वास्तव में अनिश्चितता के अंतराल में होता है। उदाहरण के लिए, [[ह्यूमन कोरिओनिक गोनाडोट्रोपिन]] की मूत्र सांद्रता के निरंतर मूल्य के साथ, एक मूत्र [[गर्भावस्था परीक्षण]] जो एचसीजी के 52 एमआईयू/एमएल को मापता है, कटऑफ के रूप में 50 एमआईयू/एमएल के साथ घनात्मक दिखा सकता है, लेकिन वास्तव में अनिश्चितता के अंतराल में है, जो केवल मूल निरंतर मूल्य जानने से ही स्पष्ट हो सकता है। दूसरी ओर, कटऑफ से बहुत दूर एक परीक्षण परिणाम में आम तौर पर परिणामी घनात्मक या ऋणात्मक पूर्वानुमानित मूल्य होता है जो निरंतर मूल्य से दिए गए पूर्वानुमानित मूल्य से कम होता है। उदाहरण के लिए, 200,000 एमआईयू/एमएल का मूत्र एचसीजी मान गर्भावस्था की बहुत अधिक संभावना प्रदान करता है, लेकिन बाइनरी मूल्यों में रूपांतरण के परिणामस्वरूप यह 52 एमआईयू/एमएल के समान ही घनात्मक दिखता है।
हालाँकि, इस तरह के रूपांतरण से जानकारी का नुकसान होता है, क्योंकि परिणामी बाइनरी वर्गीकरण यह नहीं बताता है कि कोई मान कटऑफ से कितना ऊपर या नीचे है। नतीजतन, कटऑफ के करीब एक निरंतर मूल्य को बाइनरी में परिवर्तित करते समय, परिणामी घनात्मक पूर्वानुमानित मूल्य या ऋणात्मक पूर्वानुमानित मूल्य आम तौर पर निरंतर मूल्य से सीधे दिए गए पूर्वानुमानित मूल्य से अधिक होता है। ऐसे परिस्थितियो में, परीक्षण के घनात्मक या ऋणात्मक होने का पदनाम अनुचित रूप से उच्च निश्चितता का आभास देता है, जबकि मूल्य वास्तव में अनिश्चितता के अंतराल में होता है। उदाहरण के लिए, [[ह्यूमन कोरिओनिक गोनाडोट्रोपिन]] की मूत्र सांद्रता के निरंतर मूल्य के साथ, एक मूत्र [[गर्भावस्था परीक्षण]] जो एचसीजी के 52 एमआईयू/एमएल को मापता है, कटऑफ के रूप में 50 एमआईयू/एमएल के साथ घनात्मक दिखा सकता है, लेकिन वास्तव में अनिश्चितता के अंतराल में है, जो केवल मूल निरंतर मूल्य जानने से ही स्पष्ट हो सकता है। दूसरी ओर, कटऑफ से बहुत दूर एक परीक्षण परिणाम में आम तौर पर परिणामी घनात्मक या ऋणात्मक पूर्वानुमानित मूल्य होता है जो निरंतर मूल्य से दिए गए पूर्वानुमानित मूल्य से कम होता है। उदाहरण के लिए, 200,000 एमआईयू/एमएल का मूत्र एचसीजी मान गर्भावस्था की बहुत अधिक संभावना प्रदान करता है, लेकिन बाइनरी मूल्यों में रूपांतरण के परिणामस्वरूप यह 52 एमआईयू/एमएल के समान ही घनात्मक दिखता है।


==यह भी देखें==
==यह भी देखें==

Revision as of 22:30, 27 July 2023

बाइनरी वर्गीकरण एक वर्गीकरण नियम के आधार पर एक समुच्चय (गणित) के तत्वों को दो समूहों (प्रत्येक को वर्ग कहा जाता है) में सांख्यिकीय वर्गीकरण का कार्य है। विशिष्ट द्विआधारी वर्गीकरण समस्याओं में सम्मिलित हैं:

  • यह निर्धारित करने के लिए चिकित्सा परीक्षण कि मरीज को कोई बीमारी है या नहीं;
  • उद्योग में गुणवत्ता नियंत्रण, यह तय करना कि क्या कोई विनिर्देश पूरा किया गया है;
  • सूचना पुनर्प्राप्ति में, यह तय करना कि कोई पृष्ठ खोज के परिणाम सेट में होना चाहिए या नहीं।

बाइनरी वर्गीकरण एक व्यावहारिक स्थिति पर लागू होने वाला द्विभाजन है। कई व्यावहारिक बाइनरी वर्गीकरण समस्याओं में, दोनों समूह सममित नहीं हैं, और समग्र सटीकता के बजाय, विभिन्न प्रकार, और प्रकार, त्रुटियों का सापेक्ष अनुपात रुचि का है। उदाहरण के लिए, चिकित्सा परीक्षण में, किसी बीमारी का तब पता लगाना जब वह उपस्थित न हो (गलत घनात्मक और गलत ऋणात्मक#गलत घनात्मक त्रुटि) किसी बीमारी के उपस्थित होने पर उसका पता न लगाना (गलत घनात्मक और गलत घनात्मक त्रुटि) से अलग माना जाता है। फाल्स ऋणात्मक#गलत ऋणात्मक त्रुटि)।

सांख्यिकीय बाइनरी वर्गीकरण

सांख्यिकीय वर्गीकरण यंत्र अधिगम में अध्ययन की जाने वाली एक समस्या है। यह एक प्रकार की पर्यवेक्षित शिक्षा है, मशीन लर्निंग की एक विधि जहां श्रेणियां पूर्वनिर्धारित होती हैं, और नई संभाव्य टिप्पणियों को उक्त श्रेणियों में वर्गीकृत करने के लिए उपयोग किया जाता है। जब केवल दो श्रेणियां होती हैं तो समस्या को सांख्यिकीय बाइनरी वर्गीकरण के रूप में जाना जाता है।

बाइनरी वर्गीकरण के लिए सामान्यतः उपयोग की जाने वाली कुछ विधियाँ हैं:

तर्कगणित प्रतिगमन (लोगिस्टिक रिग्रेशन)

अवलोकनों की संख्या, फ़ीचर वेक्टर की आयामीता, डेटा में शोर और कई अन्य कारकों के आधार पर प्रत्येक क्लासिफायर केवल एक चुनिंदा डोमेन में सर्वश्रेष्ठ है। उदाहरण के लिए, यादृच्छिक वन 3डी पॉइंट क्लाउड के लिए सपोर्ट वेक्टर मशीन क्लासिफायर से बेहतर प्रदर्शन करते हैं।[1][2]

बाइनरी क्लासिफायर का मूल्यांकन

परीक्षण किए गए उदाहरणों के इस सेट में, विभाजक के बचे हुए उदाहरणों की स्थिति का परीक्षण किया जा रहा है; दाहिना आधा भाग नहीं। अंडाकार उन उदाहरणों को सीमित करता है जिन्हें एक परीक्षण एल्गोरिदम स्थिति के रूप में वर्गीकृत करता है। हरे क्षेत्र उन उदाहरणों को उजागर करते हैं जिन्हें परीक्षण एल्गोरिदम ने सही ढंग से वर्गीकृत किया है। लेबल संदर्भित करते हैं:
टीपी=सच्चा घनात्मक; टीएन = सच्चा ऋणात्मक; एफपी=गलत घनात्मक (प्रकार I त्रुटि); एफएन=झूठा ऋणात्मक (प्रकार II त्रुटि); टीपीआर=सच्ची घनात्मक दर निर्धारित करने के लिए उदाहरणों का सेट; एफपीआर=झूठी घनात्मक दर निर्धारित करने के लिए उदाहरणों का सेट; पीपीवी=घनात्मक पूर्वानुमानित मूल्य; एनपीवी=ऋणात्मक पूर्वानुमानित मूल्य।

ऐसे कई मेट्रिक्स हैं जिनका उपयोग किसी क्लासिफायरियर या भविष्यवक्ता के प्रदर्शन को मापने के लिए किया जा सकता है; अलग-अलग लक्ष्यों के कारण अलग-अलग क्षेत्रों में विशिष्ट मेट्रिक्स के लिए अलग-अलग प्राथमिकताएँ होती हैं। चिकित्सा में संवेदनशीलता और विशिष्टता का प्रायः उपयोग किया जाता है, जबकि सूचना पुनर्प्राप्ति में सटीकता और स्मरण को प्राथमिकता दी जाती है। एक महत्वपूर्ण अंतर उन मेट्रिक्स के बीच है जो इस बात से स्वतंत्र हैं कि जनसंख्या (व्यापकता) में प्रत्येक श्रेणी कितनी बार आती है, और मेट्रिक्स जो व्यापकता पर निर्भर करते हैं - दोनों प्रकार उपयोगी हैं, लेकिन उनके पास बहुत अलग गुण हैं।

किसी विशिष्ट डेटा सेट के वर्गीकरण को देखते हुए, वास्तविक डेटा श्रेणी और निर्दिष्ट श्रेणी के चार बुनियादी संयोजन होते हैं: वास्तविक घनात्मक TP (सही घनात्मक असाइनमेंट), सही ऋणात्मक TN (सही ऋणात्मक असाइनमेंट), गलत घनात्मक FP (गलत घनात्मक असाइनमेंट), और गलत ऋणात्मक FN (गलत ऋणात्मक असाइनमेंट)।

Assigned
Actual
Test outcome positive Test outcome negative
Condition positive True positive False negative
Condition negative False positive True negative

इन्हें 2×2 आकस्मिक तालिका में व्यवस्थित किया जा सकता है, जिसमें वास्तविक मूल्य के अनुरूप कॉलम होंगे - स्थिति घनात्मक या स्थिति ऋणात्मक - और वर्गीकरण मूल्य के अनुरूप पंक्तियाँ - परीक्षण परिणाम घनात्मक या परीक्षण परिणाम ऋणात्मक।

आठ बुनियादी अनुपात

इस तालिका से आठ बुनियादी अनुपातों की गणना की जा सकती है, जो चार पूरक जोड़े (प्रत्येक जोड़े का योग 1) में आते हैं। इन्हें चार संख्याओं में से प्रत्येक को उसकी पंक्ति या स्तंभ के योग से विभाजित करके प्राप्त किया जाता है, जिससे आठ संख्याएँ प्राप्त होती हैं, जिन्हें सामान्य रूप से वास्तविक घनात्मक पंक्ति अनुपात या गलत ऋणात्मक स्तंभ अनुपात के रूप में संदर्भित किया जा सकता है।

इस प्रकार स्तंभ अनुपात के दो जोड़े और पंक्ति अनुपात के दो जोड़े हैं, और प्रत्येक जोड़े में से एक अनुपात चुनकर कोई इन्हें चार संख्याओं के साथ सारांशित कर सकता है - अन्य चार संख्याएँ पूरक हैं।

पंक्ति अनुपात हैं:

  • ट्रू पॉजिटिव रेट (TPR) = (TP/(TP+FN)), उर्फ ​​संवेदनशीलता (परीक्षण) या रिकॉल (सूचना पुनर्प्राप्ति)। ये स्थिति वाली जनसंख्या का अनुपात है जिसके लिए परीक्षण सही है।
    • फाल्स नेगेटिव रेट (FNR) के पूरक के साथ = (FN/(TP+FN))
  • ट्रू पॉजिटिव रेट (TNR) = (TN/(TN+FP), उर्फ ​​विशिष्टता (परीक्षण) (SPC),

स्तंभ अनुपात हैं:

नैदानिक ​​​​परीक्षण में, उपयोग किए जाने वाले मुख्य अनुपात वास्तविक स्तंभ अनुपात हैं - वास्तविक घनात्मक दर और वास्तविक ऋणात्मक दर - जहां उन्हें संवेदनशीलता और विशिष्टता के रूप में जाना जाता है। सूचनात्मक पुनर्प्राप्ति में, मुख्य अनुपात वास्तविक घनात्मक अनुपात (पंक्ति और स्तंभ) हैं - घनात्मक पूर्वानुमानित मूल्य और वास्तविक घनात्मक दर - जहां उन्हें सटीकता और रिकॉल के रूप में जाना जाता है।

कोई व्यक्ति अनुपातों की एक पूरक जोड़ी का अनुपात ले सकता है, जिससे नैदानिक ​​​​परीक्षण में चार संभावना अनुपात (अनुपातों के दो स्तंभ अनुपात, अनुपातों के दो पंक्ति अनुपात) प्राप्त होते हैं। यह मुख्य रूप से कॉलम (स्थिति) अनुपात के लिए किया जाता है, जो नैदानिक ​​​​परीक्षण में संभावना अनुपात उत्पन्न करता है। अनुपातों के इन समूहों में से किसी एक का अनुपात लेने पर अंतिम अनुपात, डायग्नोस्टिक ऑड्स अनुपात (डीओआर) प्राप्त होता है। इसे सीधे (टीपी×टीएन)/(एफपी×एफएन) = (टीपी/एफएन)/(एफपी/टीएन) के रूप में भी परिभाषित किया जा सकता है; इसकी एक उपयोगी व्याख्या है - एक विषम अनुपात के रूप में - और यह व्यापकता-स्वतंत्र है।

कई अन्य मेट्रिक्स हैं, सबसे सरल सटीकता और परिशुद्धता#बाइनरी वर्गीकरण या फ्रैक्शन करेक्ट (एफसी) में, जो सही ढंग से वर्गीकृत किए गए सभी उदाहरणों के अंश को मापता है; पूरक भिन्न भिन्न (FiC) है। एफ-स्कोर वजन के विकल्प के माध्यम से सटीकता और रिकॉल को एक संख्या में जोड़ता है, जो कि संतुलित एफ-स्कोर (एफ F1 स्कोर) के समान होता है। कुछ मेट्रिक्स प्रतिगमन गुणांक से आते हैं: चिह्नितता और सूचना, और उनका ज्यामितीय माध्य, मैथ्यूज सहसंबंध गुणांक। अन्य मेट्रिक्स में यूडेन का जे आँकड़ा, अनिश्चितता गुणांक, फी गुणांक और कोहेन का कप्पा सम्मिलित हैं।

निरंतर मानों को बाइनरी में परिवर्तित करना

ऐसे परीक्षण जिनके परिणाम निरंतर मान वाले होते हैं, जैसे कि अधिकांश रक्त मान, कटऑफ (संदर्भ मान) को परिभाषित करके कृत्रिम रूप से बाइनरी बनाया जा सकता है, परीक्षण के परिणाम को घनात्मक या ऋणात्मक परीक्षण के रूप में नामित किया जा सकता है, यह इस बात पर निर्भर करता है कि परिणामी मान इससे अधिक है या कम है। कट जाना।

हालाँकि, इस तरह के रूपांतरण से जानकारी का नुकसान होता है, क्योंकि परिणामी बाइनरी वर्गीकरण यह नहीं बताता है कि कोई मान कटऑफ से कितना ऊपर या नीचे है। नतीजतन, कटऑफ के करीब एक निरंतर मूल्य को बाइनरी में परिवर्तित करते समय, परिणामी घनात्मक पूर्वानुमानित मूल्य या ऋणात्मक पूर्वानुमानित मूल्य आम तौर पर निरंतर मूल्य से सीधे दिए गए पूर्वानुमानित मूल्य से अधिक होता है। ऐसे परिस्थितियो में, परीक्षण के घनात्मक या ऋणात्मक होने का पदनाम अनुचित रूप से उच्च निश्चितता का आभास देता है, जबकि मूल्य वास्तव में अनिश्चितता के अंतराल में होता है। उदाहरण के लिए, ह्यूमन कोरिओनिक गोनाडोट्रोपिन की मूत्र सांद्रता के निरंतर मूल्य के साथ, एक मूत्र गर्भावस्था परीक्षण जो एचसीजी के 52 एमआईयू/एमएल को मापता है, कटऑफ के रूप में 50 एमआईयू/एमएल के साथ घनात्मक दिखा सकता है, लेकिन वास्तव में अनिश्चितता के अंतराल में है, जो केवल मूल निरंतर मूल्य जानने से ही स्पष्ट हो सकता है। दूसरी ओर, कटऑफ से बहुत दूर एक परीक्षण परिणाम में आम तौर पर परिणामी घनात्मक या ऋणात्मक पूर्वानुमानित मूल्य होता है जो निरंतर मूल्य से दिए गए पूर्वानुमानित मूल्य से कम होता है। उदाहरण के लिए, 200,000 एमआईयू/एमएल का मूत्र एचसीजी मान गर्भावस्था की बहुत अधिक संभावना प्रदान करता है, लेकिन बाइनरी मूल्यों में रूपांतरण के परिणामस्वरूप यह 52 एमआईयू/एमएल के समान ही घनात्मक दिखता है।

यह भी देखें

संदर्भ

  1. Zhang & Zakhor, Richard & Avideh (2014). "LiDAR और कैमरों का उपयोग करके इनडोर पॉइंट क्लाउड पर विंडो क्षेत्रों की स्वचालित पहचान". VIP Lab Publications. CiteSeerX 10.1.1.649.303.
  2. Y. Lu and C. Rasmussen (2012). "Simplified markov random fields for efficient semantic labeling of 3D point clouds" (PDF). IROS.

ग्रन्थसूची