द्विआधारी वर्गीकरण: Difference between revisions

From Vigyanwiki
(Created page with "{{More citations needed|date=May 2011}} बाइनरी वर्गीकरण एक वर्गीकरण नियम के आधार पर एक से...")
 
No edit summary
Line 1: Line 1:
{{More citations needed|date=May 2011}}
बाइनरी वर्गीकरण एक [[वर्गीकरण नियम]] के आधार पर एक [[सेट (गणित)]] के तत्वों को दो समूहों (प्रत्येक को ''वर्ग'' कहा जाता है) में [[सांख्यिकीय वर्गीकरण]] का कार्य है। विशिष्ट द्विआधारी वर्गीकरण समस्याओं में शामिल हैं:
बाइनरी वर्गीकरण एक [[वर्गीकरण नियम]] के आधार पर एक [[सेट (गणित)]] के तत्वों को दो समूहों (प्रत्येक को ''वर्ग'' कहा जाता है) में [[सांख्यिकीय वर्गीकरण]] का कार्य है। विशिष्ट द्विआधारी वर्गीकरण समस्याओं में शामिल हैं:
* यह निर्धारित करने के लिए चिकित्सा परीक्षण कि मरीज को कोई बीमारी है या नहीं;
* यह निर्धारित करने के लिए चिकित्सा परीक्षण कि मरीज को कोई बीमारी है या नहीं;
Line 5: Line 4:
* सूचना पुनर्प्राप्ति में, यह तय करना कि कोई पृष्ठ खोज के [[परिणाम सेट]] में होना चाहिए या नहीं।
* सूचना पुनर्प्राप्ति में, यह तय करना कि कोई पृष्ठ खोज के [[परिणाम सेट]] में होना चाहिए या नहीं।


बाइनरी वर्गीकरण एक व्यावहारिक स्थिति पर लागू होने वाला [[द्विभाजन]] है। कई व्यावहारिक बाइनरी वर्गीकरण समस्याओं में, दोनों समूह सममित नहीं हैं, और समग्र सटीकता के बजाय, विभिन्न प्रकार I और प्रकार II त्रुटियों का सापेक्ष अनुपात रुचि का है। उदाहरण के लिए, चिकित्सा परीक्षण में, किसी बीमारी का तब पता लगाना जब वह मौजूद न हो (''गलत सकारात्मक और गलत नकारात्मक''#गलत सकारात्मक त्रुटि'') किसी बीमारी के मौजूद होने पर उसका पता न लगाना (''गलत सकारात्मक और गलत सकारात्मक त्रुटि'') से अलग माना जाता है। झूठी नकारात्मक#गलत नकारात्मक त्रुटि'')।
बाइनरी वर्गीकरण एक व्यावहारिक स्थिति पर लागू होने वाला [[द्विभाजन]] है। कई व्यावहारिक बाइनरी वर्गीकरण समस्याओं में, दोनों समूह सममित नहीं हैं, और समग्र सटीकता के बजाय, विभिन्न प्रकार I और प्रकार II त्रुटियों का सापेक्ष अनुपात रुचि का है। उदाहरण के लिए, चिकित्सा परीक्षण में, किसी बीमारी का तब पता लगाना जब वह मौजूद न हो (''गलत घनात्मक और गलत ऋणात्मक''#गलत घनात्मक त्रुटि'') किसी बीमारी के मौजूद होने पर उसका पता न लगाना (''गलत घनात्मक और गलत घनात्मक त्रुटि'') से अलग माना जाता है। झूठी ऋणात्मक#गलत ऋणात्मक त्रुटि'')।


==सांख्यिकीय बाइनरी वर्गीकरण==
==सांख्यिकीय बाइनरी वर्गीकरण==
Line 26: Line 25:


==बाइनरी क्लासिफायर का मूल्यांकन==
==बाइनरी क्लासिफायर का मूल्यांकन==
{{main|Evaluation of binary classifiers}}
{{main|बाइनरी क्लासिफायर का मूल्यांकन}}


[[Image:binary-classification-labeled.svg|thumb|220px|right|परीक्षण किए गए उदाहरणों के इस सेट में, विभाजक के बचे हुए उदाहरणों की स्थिति का परीक्षण किया जा रहा है; दाहिना आधा भाग नहीं। अंडाकार उन उदाहरणों को सीमित करता है जिन्हें एक परीक्षण एल्गोरिदम स्थिति के रूप में वर्गीकृत करता है। हरे क्षेत्र उन उदाहरणों को उजागर करते हैं जिन्हें परीक्षण एल्गोरिदम ने सही ढंग से वर्गीकृत किया है। लेबल संदर्भित करते हैं: <br />टीपी=सच्चा सकारात्मक; टीएन = सच्चा नकारात्मक; एफपी=गलत सकारात्मक (प्रकार I त्रुटि); एफएन=झूठा नकारात्मक (प्रकार II त्रुटि); टीपीआर=सच्ची सकारात्मक दर निर्धारित करने के लिए उदाहरणों का सेट; एफपीआर=झूठी सकारात्मक दर निर्धारित करने के लिए उदाहरणों का सेट; पीपीवी=सकारात्मक पूर्वानुमानित मूल्य; एनपीवी=नकारात्मक पूर्वानुमानित मूल्य।]]ऐसे कई मेट्रिक्स हैं जिनका उपयोग किसी क्लासिफायरियर या भविष्यवक्ता के प्रदर्शन को मापने के लिए किया जा सकता है; अलग-अलग लक्ष्यों के कारण अलग-अलग क्षेत्रों में विशिष्ट मेट्रिक्स के लिए अलग-अलग प्राथमिकताएँ होती हैं। चिकित्सा में [[संवेदनशीलता और विशिष्टता]] का अक्सर उपयोग किया जाता है, जबकि सूचना पुनर्प्राप्ति में सटीकता और स्मरण को प्राथमिकता दी जाती है। एक महत्वपूर्ण अंतर उन मेट्रिक्स के बीच है जो इस बात से स्वतंत्र हैं कि जनसंख्या (व्यापकता) में प्रत्येक श्रेणी कितनी बार आती है, और मेट्रिक्स जो व्यापकता पर निर्भर करते हैं - दोनों प्रकार उपयोगी हैं, लेकिन उनके पास बहुत अलग गुण हैं।
[[Image:binary-classification-labeled.svg|thumb|220px|right|परीक्षण किए गए उदाहरणों के इस सेट में, विभाजक के बचे हुए उदाहरणों की स्थिति का परीक्षण किया जा रहा है; दाहिना आधा भाग नहीं। अंडाकार उन उदाहरणों को सीमित करता है जिन्हें एक परीक्षण एल्गोरिदम स्थिति के रूप में वर्गीकृत करता है। हरे क्षेत्र उन उदाहरणों को उजागर करते हैं जिन्हें परीक्षण एल्गोरिदम ने सही ढंग से वर्गीकृत किया है। लेबल संदर्भित करते हैं: <br />टीपी=सच्चा घनात्मक; टीएन = सच्चा ऋणात्मक; एफपी=गलत घनात्मक (प्रकार I त्रुटि); एफएन=झूठा ऋणात्मक (प्रकार II त्रुटि); टीपीआर=सच्ची घनात्मक दर निर्धारित करने के लिए उदाहरणों का सेट; एफपीआर=झूठी घनात्मक दर निर्धारित करने के लिए उदाहरणों का सेट; पीपीवी=घनात्मक पूर्वानुमानित मूल्य; एनपीवी=ऋणात्मक पूर्वानुमानित मूल्य।]]ऐसे कई मेट्रिक्स हैं जिनका उपयोग किसी क्लासिफायरियर या भविष्यवक्ता के प्रदर्शन को मापने के लिए किया जा सकता है; अलग-अलग लक्ष्यों के कारण अलग-अलग क्षेत्रों में विशिष्ट मेट्रिक्स के लिए अलग-अलग प्राथमिकताएँ होती हैं। चिकित्सा में [[संवेदनशीलता और विशिष्टता]] का अक्सर उपयोग किया जाता है, जबकि सूचना पुनर्प्राप्ति में सटीकता और स्मरण को प्राथमिकता दी जाती है। एक महत्वपूर्ण अंतर उन मेट्रिक्स के बीच है जो इस बात से स्वतंत्र हैं कि जनसंख्या (व्यापकता) में प्रत्येक श्रेणी कितनी बार आती है, और मेट्रिक्स जो व्यापकता पर निर्भर करते हैं - दोनों प्रकार उपयोगी हैं, लेकिन उनके पास बहुत अलग गुण हैं।


किसी विशिष्ट डेटा सेट के वर्गीकरण को देखते हुए, वास्तविक डेटा श्रेणी और निर्दिष्ट श्रेणी के चार बुनियादी संयोजन होते हैं: वास्तविक सकारात्मक टीपी (सही सकारात्मक असाइनमेंट), सही नकारात्मक टीएन (सही नकारात्मक असाइनमेंट), गलत सकारात्मक एफपी (गलत सकारात्मक असाइनमेंट), और गलत नकारात्मक एफएन (गलत नकारात्मक असाइनमेंट)।
किसी विशिष्ट डेटा सेट के वर्गीकरण को देखते हुए, वास्तविक डेटा श्रेणी और निर्दिष्ट श्रेणी के चार बुनियादी संयोजन होते हैं: वास्तविक घनात्मक टीपी (सही घनात्मक असाइनमेंट), सही ऋणात्मक टीएन (सही ऋणात्मक असाइनमेंट), गलत घनात्मक एफपी (गलत घनात्मक असाइनमेंट), और गलत ऋणात्मक एफएन (गलत ऋणात्मक असाइनमेंट)।


{| class="wikitable"
{| class="wikitable"
Line 45: Line 44:
| align="center"| True ''negative''
| align="center"| True ''negative''
|}
|}
इन्हें 2×2 [[आकस्मिक तालिका]] में व्यवस्थित किया जा सकता है, जिसमें वास्तविक मूल्य के अनुरूप कॉलम होंगे - स्थिति सकारात्मक या स्थिति नकारात्मक - और वर्गीकरण मूल्य के अनुरूप पंक्तियाँ - परीक्षण परिणाम सकारात्मक या परीक्षण परिणाम नकारात्मक।
इन्हें 2×2 [[आकस्मिक तालिका]] में व्यवस्थित किया जा सकता है, जिसमें वास्तविक मूल्य के अनुरूप कॉलम होंगे - स्थिति घनात्मक या स्थिति ऋणात्मक - और वर्गीकरण मूल्य के अनुरूप पंक्तियाँ - परीक्षण परिणाम घनात्मक या परीक्षण परिणाम ऋणात्मक।


===आठ बुनियादी अनुपात===
===आठ बुनियादी अनुपात===
इस तालिका से आठ बुनियादी अनुपातों की गणना की जा सकती है, जो चार पूरक जोड़े (प्रत्येक जोड़े का योग 1) में आते हैं। इन्हें चार संख्याओं में से प्रत्येक को उसकी पंक्ति या स्तंभ के योग से विभाजित करके प्राप्त किया जाता है, जिससे आठ संख्याएँ प्राप्त होती हैं, जिन्हें सामान्य रूप से वास्तविक सकारात्मक पंक्ति अनुपात या गलत नकारात्मक स्तंभ अनुपात के रूप में संदर्भित किया जा सकता है।
इस तालिका से आठ बुनियादी अनुपातों की गणना की जा सकती है, जो चार पूरक जोड़े (प्रत्येक जोड़े का योग 1) में आते हैं। इन्हें चार संख्याओं में से प्रत्येक को उसकी पंक्ति या स्तंभ के योग से विभाजित करके प्राप्त किया जाता है, जिससे आठ संख्याएँ प्राप्त होती हैं, जिन्हें सामान्य रूप से वास्तविक घनात्मक पंक्ति अनुपात या गलत ऋणात्मक स्तंभ अनुपात के रूप में संदर्भित किया जा सकता है।


इस प्रकार स्तंभ अनुपात के दो जोड़े और पंक्ति अनुपात के दो जोड़े हैं, और प्रत्येक जोड़े में से एक अनुपात चुनकर कोई इन्हें चार संख्याओं के साथ सारांशित कर सकता है - अन्य चार संख्याएँ पूरक हैं।
इस प्रकार स्तंभ अनुपात के दो जोड़े और पंक्ति अनुपात के दो जोड़े हैं, और प्रत्येक जोड़े में से एक अनुपात चुनकर कोई इन्हें चार संख्याओं के साथ सारांशित कर सकता है - अन्य चार संख्याएँ पूरक हैं।


पंक्ति अनुपात हैं:
पंक्ति अनुपात हैं:
*सच्ची सकारात्मक दर (टीपीआर) = (टीपी/(टीपी+एफएन)), उर्फ ​​[[संवेदनशीलता (परीक्षण)]] या रिकॉल ([[सूचना]] पुनर्प्राप्ति)। ये ''स्थिति वाली जनसंख्या'' का अनुपात है जिसके लिए परीक्षण सही है।
*सच्ची घनात्मक दर (टीपीआर) = (टीपी/(टीपी+एफएन)), उर्फ ​​[[संवेदनशीलता (परीक्षण)]] या रिकॉल ([[सूचना]] पुनर्प्राप्ति)। ये ''स्थिति वाली जनसंख्या'' का अनुपात है जिसके लिए परीक्षण सही है।
**गलत नकारात्मक दर (FNR) के पूरक के साथ = (FN/(TP+FN))
**गलत ऋणात्मक दर (FNR) के पूरक के साथ = (FN/(TP+FN))
*सच्ची नकारात्मक दर (टीएनआर) = (टीएन/(टीएन+एफपी), उर्फ ​​[[विशिष्टता (परीक्षण)]] (एसपीसी),
*सच्ची ऋणात्मक दर (टीएनआर) = (टीएन/(टीएन+एफपी), उर्फ ​​[[विशिष्टता (परीक्षण)]] (एसपीसी),
**पूरक [[झूठी सकारात्मक दर]] (एफपीआर) = (एफपी/(टीएन+एफपी)) के साथ, जिसे व्यापकता से स्वतंत्र भी कहा जाता है
**पूरक [[झूठी सकारात्मक दर|झूठी घनात्मक दर]] (एफपीआर) = (एफपी/(टीएन+एफपी)) के साथ, जिसे व्यापकता से स्वतंत्र भी कहा जाता है


स्तंभ अनुपात हैं:
स्तंभ अनुपात हैं:
*[[सकारात्मक पूर्वानुमानित मूल्य]] (पीपीवी, उर्फ ​​[[परिशुद्धता (सूचना पुनर्प्राप्ति)]]) (टीपी/(टीपी+एफपी))। ये ''किसी दिए गए परीक्षा परिणाम वाली जनसंख्या'' का अनुपात है जिसके लिए परीक्षण सही है।
*[[सकारात्मक पूर्वानुमानित मूल्य|घनात्मक पूर्वानुमानित मूल्य]] (पीपीवी, उर्फ ​​[[परिशुद्धता (सूचना पुनर्प्राप्ति)]]) (टीपी/(टीपी+एफपी))। ये ''किसी दिए गए परीक्षा परिणाम वाली जनसंख्या'' का अनुपात है जिसके लिए परीक्षण सही है।
**[[झूठी खोज दर]] (एफडीआर) (एफपी/(टीपी+एफपी)) के पूरक के साथ
**[[झूठी खोज दर]] (एफडीआर) (एफपी/(टीपी+एफपी)) के पूरक के साथ
*नकारात्मक पूर्वानुमानित मान (एनपीवी) (टीएन/(टीएन+एफएन))
*ऋणात्मक पूर्वानुमानित मान (एनपीवी) (टीएन/(टीएन+एफएन))
**[[झूठी चूक दर]] (FOR) (FN/(TN+FN)) के पूरक के साथ, जिसे व्यापकता पर निर्भरता भी कहा जाता है।
**[[झूठी चूक दर]] (FOR) (FN/(TN+FN)) के पूरक के साथ, जिसे व्यापकता पर निर्भरता भी कहा जाता है।


नैदानिक ​​​​परीक्षण में, उपयोग किए जाने वाले मुख्य अनुपात वास्तविक स्तंभ अनुपात हैं - [[वास्तविक सकारात्मक दर]] और [[वास्तविक नकारात्मक दर]] - जहां उन्हें संवेदनशीलता और विशिष्टता के रूप में जाना जाता है। सूचनात्मक पुनर्प्राप्ति में, मुख्य अनुपात वास्तविक सकारात्मक अनुपात (पंक्ति और स्तंभ) हैं - सकारात्मक पूर्वानुमानित मूल्य और वास्तविक सकारात्मक दर - जहां उन्हें सटीकता और रिकॉल के रूप में जाना जाता है।
नैदानिक ​​​​परीक्षण में, उपयोग किए जाने वाले मुख्य अनुपात वास्तविक स्तंभ अनुपात हैं - [[वास्तविक सकारात्मक दर|वास्तविक घनात्मक दर]] और [[वास्तविक नकारात्मक दर|वास्तविक ऋणात्मक दर]] - जहां उन्हें संवेदनशीलता और विशिष्टता के रूप में जाना जाता है। सूचनात्मक पुनर्प्राप्ति में, मुख्य अनुपात वास्तविक घनात्मक अनुपात (पंक्ति और स्तंभ) हैं - घनात्मक पूर्वानुमानित मूल्य और वास्तविक घनात्मक दर - जहां उन्हें सटीकता और रिकॉल के रूप में जाना जाता है।


कोई व्यक्ति अनुपातों की एक पूरक जोड़ी का अनुपात ले सकता है, जिससे नैदानिक ​​​​परीक्षण में चार संभावना अनुपात (अनुपातों के दो स्तंभ अनुपात, अनुपातों के दो पंक्ति अनुपात) प्राप्त होते हैं। यह मुख्य रूप से कॉलम (स्थिति) अनुपात के लिए किया जाता है, जो नैदानिक ​​​​परीक्षण में संभावना अनुपात उत्पन्न करता है। अनुपातों के इन समूहों में से किसी एक का अनुपात लेने पर अंतिम अनुपात, [[डायग्नोस्टिक ऑड्स अनुपात]] (डीओआर) प्राप्त होता है। इसे सीधे (टीपी×टीएन)/(एफपी×एफएन) = (टीपी/एफएन)/(एफपी/टीएन) के रूप में भी परिभाषित किया जा सकता है; इसकी एक उपयोगी व्याख्या है - एक [[विषम अनुपात]] के रूप में - और यह व्यापकता-स्वतंत्र है।
कोई व्यक्ति अनुपातों की एक पूरक जोड़ी का अनुपात ले सकता है, जिससे नैदानिक ​​​​परीक्षण में चार संभावना अनुपात (अनुपातों के दो स्तंभ अनुपात, अनुपातों के दो पंक्ति अनुपात) प्राप्त होते हैं। यह मुख्य रूप से कॉलम (स्थिति) अनुपात के लिए किया जाता है, जो नैदानिक ​​​​परीक्षण में संभावना अनुपात उत्पन्न करता है। अनुपातों के इन समूहों में से किसी एक का अनुपात लेने पर अंतिम अनुपात, [[डायग्नोस्टिक ऑड्स अनुपात]] (डीओआर) प्राप्त होता है। इसे सीधे (टीपी×टीएन)/(एफपी×एफएन) = (टीपी/एफएन)/(एफपी/टीएन) के रूप में भी परिभाषित किया जा सकता है; इसकी एक उपयोगी व्याख्या है - एक [[विषम अनुपात]] के रूप में - और यह व्यापकता-स्वतंत्र है।
Line 71: Line 70:


==निरंतर मानों को बाइनरी में परिवर्तित करना==
==निरंतर मानों को बाइनरी में परिवर्तित करना==
{{anchor|artificial}} <!--Artificially binary value redirects here-->
ऐसे परीक्षण जिनके परिणाम निरंतर मान वाले होते हैं, जैसे कि अधिकांश रक्त मान, कटऑफ (संदर्भ मान) को परिभाषित करके कृत्रिम रूप से बाइनरी बनाया जा सकता है, परीक्षण के परिणाम को [[सकारात्मक या नकारात्मक परीक्षण|घनात्मक या ऋणात्मक परीक्षण]] के रूप में नामित किया जा सकता है, यह इस बात पर निर्भर करता है कि परिणामी मान इससे अधिक है या कम है। कट जाना।
ऐसे परीक्षण जिनके परिणाम निरंतर मान वाले होते हैं, जैसे कि अधिकांश रक्त मान, कटऑफ (संदर्भ मान) को परिभाषित करके कृत्रिम रूप से बाइनरी बनाया जा सकता है, परीक्षण के परिणाम को [[सकारात्मक या नकारात्मक परीक्षण]] के रूप में नामित किया जा सकता है, यह इस बात पर निर्भर करता है कि परिणामी मान इससे अधिक है या कम है। कट जाना।


हालाँकि, इस तरह के रूपांतरण से जानकारी का नुकसान होता है, क्योंकि परिणामी बाइनरी वर्गीकरण यह नहीं बताता है कि कोई मान कटऑफ से कितना ऊपर या नीचे है। नतीजतन, कटऑफ के करीब एक निरंतर मूल्य को बाइनरी में परिवर्तित करते समय, परिणामी सकारात्मक पूर्वानुमानित मूल्य या नकारात्मक पूर्वानुमानित मूल्य आम तौर पर निरंतर मूल्य से सीधे दिए गए पूर्वानुमानित मूल्य से अधिक होता है। ऐसे मामलों में, परीक्षण के सकारात्मक या नकारात्मक होने का पदनाम अनुचित रूप से उच्च निश्चितता का आभास देता है, जबकि मूल्य वास्तव में अनिश्चितता के अंतराल में होता है। उदाहरण के लिए, [[ह्यूमन कोरिओनिक गोनाडोट्रोपिन]] की मूत्र सांद्रता के निरंतर मूल्य के साथ, एक मूत्र [[गर्भावस्था परीक्षण]] जो एचसीजी के 52 एमआईयू/एमएल को मापता है, कटऑफ के रूप में 50 एमआईयू/एमएल के साथ सकारात्मक दिखा सकता है, लेकिन वास्तव में अनिश्चितता के अंतराल में है, जो केवल मूल निरंतर मूल्य जानने से ही स्पष्ट हो सकता है। दूसरी ओर, कटऑफ से बहुत दूर एक परीक्षण परिणाम में आम तौर पर परिणामी सकारात्मक या नकारात्मक पूर्वानुमानित मूल्य होता है जो निरंतर मूल्य से दिए गए पूर्वानुमानित मूल्य से कम होता है। उदाहरण के लिए, 200,000 एमआईयू/एमएल का मूत्र एचसीजी मान गर्भावस्था की बहुत अधिक संभावना प्रदान करता है, लेकिन बाइनरी मूल्यों में रूपांतरण के परिणामस्वरूप यह 52 एमआईयू/एमएल के समान ही सकारात्मक दिखता है।
हालाँकि, इस तरह के रूपांतरण से जानकारी का नुकसान होता है, क्योंकि परिणामी बाइनरी वर्गीकरण यह नहीं बताता है कि कोई मान कटऑफ से कितना ऊपर या नीचे है। नतीजतन, कटऑफ के करीब एक निरंतर मूल्य को बाइनरी में परिवर्तित करते समय, परिणामी घनात्मक पूर्वानुमानित मूल्य या ऋणात्मक पूर्वानुमानित मूल्य आम तौर पर निरंतर मूल्य से सीधे दिए गए पूर्वानुमानित मूल्य से अधिक होता है। ऐसे मामलों में, परीक्षण के घनात्मक या ऋणात्मक होने का पदनाम अनुचित रूप से उच्च निश्चितता का आभास देता है, जबकि मूल्य वास्तव में अनिश्चितता के अंतराल में होता है। उदाहरण के लिए, [[ह्यूमन कोरिओनिक गोनाडोट्रोपिन]] की मूत्र सांद्रता के निरंतर मूल्य के साथ, एक मूत्र [[गर्भावस्था परीक्षण]] जो एचसीजी के 52 एमआईयू/एमएल को मापता है, कटऑफ के रूप में 50 एमआईयू/एमएल के साथ घनात्मक दिखा सकता है, लेकिन वास्तव में अनिश्चितता के अंतराल में है, जो केवल मूल निरंतर मूल्य जानने से ही स्पष्ट हो सकता है। दूसरी ओर, कटऑफ से बहुत दूर एक परीक्षण परिणाम में आम तौर पर परिणामी घनात्मक या ऋणात्मक पूर्वानुमानित मूल्य होता है जो निरंतर मूल्य से दिए गए पूर्वानुमानित मूल्य से कम होता है। उदाहरण के लिए, 200,000 एमआईयू/एमएल का मूत्र एचसीजी मान गर्भावस्था की बहुत अधिक संभावना प्रदान करता है, लेकिन बाइनरी मूल्यों में रूपांतरण के परिणामस्वरूप यह 52 एमआईयू/एमएल के समान ही घनात्मक दिखता है।


==यह भी देखें==
==यह भी देखें==
Line 95: Line 93:
==संदर्भ==
==संदर्भ==
{{reflist}}
{{reflist}}
== ग्रन्थसूची ==
== ग्रन्थसूची ==
* [[Nello Cristianini]] and [[John Shawe-Taylor]]. ''An Introduction to Support Vector Machines and other kernel-based learning methods''. Cambridge University Press, 2000. {{ISBN|0-521-78019-5}} ''([https://web.archive.org/web/20180627015707/https://www.support-vector.net/] SVM Book)''
* [[Nello Cristianini]] and [[John Shawe-Taylor]]. ''An Introduction to Support Vector Machines and other kernel-based learning methods''. Cambridge University Press, 2000. {{ISBN|0-521-78019-5}} ''([https://web.archive.org/web/20180627015707/https://www.support-vector.net/] SVM Book)''
* John Shawe-Taylor and Nello Cristianini.  ''Kernel Methods for Pattern Analysis''.  Cambridge University Press, 2004.  {{ISBN|0-521-81397-2}} ([https://kernelmethods.blogs.bristol.ac.uk/ Website for the book])
* John Shawe-Taylor and Nello Cristianini.  ''Kernel Methods for Pattern Analysis''.  Cambridge University Press, 2004.  {{ISBN|0-521-81397-2}} ([https://kernelmethods.blogs.bristol.ac.uk/ Website for the book])
* Bernhard Schölkopf and A. J. Smola: ''Learning with Kernels''. MIT Press, Cambridge, Massachusetts, 2002. {{ISBN|0-262-19475-9}}
* Bernhard Schölkopf and A. J. Smola: ''Learning with Kernels''. MIT Press, Cambridge, Massachusetts, 2002. {{ISBN|0-262-19475-9}}
{{Statistics|analysis||state=expanded}}
[[Category: सांख्यिकीय वर्गीकरण]] [[Category: यंत्र अधिगम]]  
[[Category: सांख्यिकीय वर्गीकरण]] [[Category: यंत्र अधिगम]]  



Revision as of 21:46, 27 July 2023

बाइनरी वर्गीकरण एक वर्गीकरण नियम के आधार पर एक सेट (गणित) के तत्वों को दो समूहों (प्रत्येक को वर्ग कहा जाता है) में सांख्यिकीय वर्गीकरण का कार्य है। विशिष्ट द्विआधारी वर्गीकरण समस्याओं में शामिल हैं:

  • यह निर्धारित करने के लिए चिकित्सा परीक्षण कि मरीज को कोई बीमारी है या नहीं;
  • उद्योग में गुणवत्ता नियंत्रण, यह तय करना कि क्या कोई विनिर्देश पूरा किया गया है;
  • सूचना पुनर्प्राप्ति में, यह तय करना कि कोई पृष्ठ खोज के परिणाम सेट में होना चाहिए या नहीं।

बाइनरी वर्गीकरण एक व्यावहारिक स्थिति पर लागू होने वाला द्विभाजन है। कई व्यावहारिक बाइनरी वर्गीकरण समस्याओं में, दोनों समूह सममित नहीं हैं, और समग्र सटीकता के बजाय, विभिन्न प्रकार I और प्रकार II त्रुटियों का सापेक्ष अनुपात रुचि का है। उदाहरण के लिए, चिकित्सा परीक्षण में, किसी बीमारी का तब पता लगाना जब वह मौजूद न हो (गलत घनात्मक और गलत ऋणात्मक#गलत घनात्मक त्रुटि) किसी बीमारी के मौजूद होने पर उसका पता न लगाना (गलत घनात्मक और गलत घनात्मक त्रुटि) से अलग माना जाता है। झूठी ऋणात्मक#गलत ऋणात्मक त्रुटि)।

सांख्यिकीय बाइनरी वर्गीकरण

सांख्यिकीय वर्गीकरण यंत्र अधिगम में अध्ययन की जाने वाली एक समस्या है। यह एक प्रकार की पर्यवेक्षित शिक्षा है, मशीन लर्निंग की एक विधि जहां श्रेणियां पूर्वनिर्धारित होती हैं, और नई संभाव्य टिप्पणियों को उक्त श्रेणियों में वर्गीकृत करने के लिए उपयोग किया जाता है। जब केवल दो श्रेणियां होती हैं तो समस्या को सांख्यिकीय बाइनरी वर्गीकरण के रूप में जाना जाता है।

बाइनरी वर्गीकरण के लिए आमतौर पर उपयोग की जाने वाली कुछ विधियाँ हैं:

रैखिक आनुवंशिक प्रोग्रामिंग

अवलोकनों की संख्या, फ़ीचर वेक्टर की आयामीता, डेटा में शोर और कई अन्य कारकों के आधार पर प्रत्येक क्लासिफायर केवल एक चुनिंदा डोमेन में सर्वश्रेष्ठ है। उदाहरण के लिए, यादृच्छिक वन 3डी पॉइंट क्लाउड के लिए समर्थन वेक्टर यंत्र क्लासिफायर से बेहतर प्रदर्शन करते हैं।[1][2]


बाइनरी क्लासिफायर का मूल्यांकन

परीक्षण किए गए उदाहरणों के इस सेट में, विभाजक के बचे हुए उदाहरणों की स्थिति का परीक्षण किया जा रहा है; दाहिना आधा भाग नहीं। अंडाकार उन उदाहरणों को सीमित करता है जिन्हें एक परीक्षण एल्गोरिदम स्थिति के रूप में वर्गीकृत करता है। हरे क्षेत्र उन उदाहरणों को उजागर करते हैं जिन्हें परीक्षण एल्गोरिदम ने सही ढंग से वर्गीकृत किया है। लेबल संदर्भित करते हैं:
टीपी=सच्चा घनात्मक; टीएन = सच्चा ऋणात्मक; एफपी=गलत घनात्मक (प्रकार I त्रुटि); एफएन=झूठा ऋणात्मक (प्रकार II त्रुटि); टीपीआर=सच्ची घनात्मक दर निर्धारित करने के लिए उदाहरणों का सेट; एफपीआर=झूठी घनात्मक दर निर्धारित करने के लिए उदाहरणों का सेट; पीपीवी=घनात्मक पूर्वानुमानित मूल्य; एनपीवी=ऋणात्मक पूर्वानुमानित मूल्य।

ऐसे कई मेट्रिक्स हैं जिनका उपयोग किसी क्लासिफायरियर या भविष्यवक्ता के प्रदर्शन को मापने के लिए किया जा सकता है; अलग-अलग लक्ष्यों के कारण अलग-अलग क्षेत्रों में विशिष्ट मेट्रिक्स के लिए अलग-अलग प्राथमिकताएँ होती हैं। चिकित्सा में संवेदनशीलता और विशिष्टता का अक्सर उपयोग किया जाता है, जबकि सूचना पुनर्प्राप्ति में सटीकता और स्मरण को प्राथमिकता दी जाती है। एक महत्वपूर्ण अंतर उन मेट्रिक्स के बीच है जो इस बात से स्वतंत्र हैं कि जनसंख्या (व्यापकता) में प्रत्येक श्रेणी कितनी बार आती है, और मेट्रिक्स जो व्यापकता पर निर्भर करते हैं - दोनों प्रकार उपयोगी हैं, लेकिन उनके पास बहुत अलग गुण हैं।

किसी विशिष्ट डेटा सेट के वर्गीकरण को देखते हुए, वास्तविक डेटा श्रेणी और निर्दिष्ट श्रेणी के चार बुनियादी संयोजन होते हैं: वास्तविक घनात्मक टीपी (सही घनात्मक असाइनमेंट), सही ऋणात्मक टीएन (सही ऋणात्मक असाइनमेंट), गलत घनात्मक एफपी (गलत घनात्मक असाइनमेंट), और गलत ऋणात्मक एफएन (गलत ऋणात्मक असाइनमेंट)।

Assigned
Actual
Test outcome positive Test outcome negative
Condition positive True positive False negative
Condition negative False positive True negative

इन्हें 2×2 आकस्मिक तालिका में व्यवस्थित किया जा सकता है, जिसमें वास्तविक मूल्य के अनुरूप कॉलम होंगे - स्थिति घनात्मक या स्थिति ऋणात्मक - और वर्गीकरण मूल्य के अनुरूप पंक्तियाँ - परीक्षण परिणाम घनात्मक या परीक्षण परिणाम ऋणात्मक।

आठ बुनियादी अनुपात

इस तालिका से आठ बुनियादी अनुपातों की गणना की जा सकती है, जो चार पूरक जोड़े (प्रत्येक जोड़े का योग 1) में आते हैं। इन्हें चार संख्याओं में से प्रत्येक को उसकी पंक्ति या स्तंभ के योग से विभाजित करके प्राप्त किया जाता है, जिससे आठ संख्याएँ प्राप्त होती हैं, जिन्हें सामान्य रूप से वास्तविक घनात्मक पंक्ति अनुपात या गलत ऋणात्मक स्तंभ अनुपात के रूप में संदर्भित किया जा सकता है।

इस प्रकार स्तंभ अनुपात के दो जोड़े और पंक्ति अनुपात के दो जोड़े हैं, और प्रत्येक जोड़े में से एक अनुपात चुनकर कोई इन्हें चार संख्याओं के साथ सारांशित कर सकता है - अन्य चार संख्याएँ पूरक हैं।

पंक्ति अनुपात हैं:

  • सच्ची घनात्मक दर (टीपीआर) = (टीपी/(टीपी+एफएन)), उर्फ ​​संवेदनशीलता (परीक्षण) या रिकॉल (सूचना पुनर्प्राप्ति)। ये स्थिति वाली जनसंख्या का अनुपात है जिसके लिए परीक्षण सही है।
    • गलत ऋणात्मक दर (FNR) के पूरक के साथ = (FN/(TP+FN))
  • सच्ची ऋणात्मक दर (टीएनआर) = (टीएन/(टीएन+एफपी), उर्फ ​​विशिष्टता (परीक्षण) (एसपीसी),
    • पूरक झूठी घनात्मक दर (एफपीआर) = (एफपी/(टीएन+एफपी)) के साथ, जिसे व्यापकता से स्वतंत्र भी कहा जाता है

स्तंभ अनुपात हैं:

नैदानिक ​​​​परीक्षण में, उपयोग किए जाने वाले मुख्य अनुपात वास्तविक स्तंभ अनुपात हैं - वास्तविक घनात्मक दर और वास्तविक ऋणात्मक दर - जहां उन्हें संवेदनशीलता और विशिष्टता के रूप में जाना जाता है। सूचनात्मक पुनर्प्राप्ति में, मुख्य अनुपात वास्तविक घनात्मक अनुपात (पंक्ति और स्तंभ) हैं - घनात्मक पूर्वानुमानित मूल्य और वास्तविक घनात्मक दर - जहां उन्हें सटीकता और रिकॉल के रूप में जाना जाता है।

कोई व्यक्ति अनुपातों की एक पूरक जोड़ी का अनुपात ले सकता है, जिससे नैदानिक ​​​​परीक्षण में चार संभावना अनुपात (अनुपातों के दो स्तंभ अनुपात, अनुपातों के दो पंक्ति अनुपात) प्राप्त होते हैं। यह मुख्य रूप से कॉलम (स्थिति) अनुपात के लिए किया जाता है, जो नैदानिक ​​​​परीक्षण में संभावना अनुपात उत्पन्न करता है। अनुपातों के इन समूहों में से किसी एक का अनुपात लेने पर अंतिम अनुपात, डायग्नोस्टिक ऑड्स अनुपात (डीओआर) प्राप्त होता है। इसे सीधे (टीपी×टीएन)/(एफपी×एफएन) = (टीपी/एफएन)/(एफपी/टीएन) के रूप में भी परिभाषित किया जा सकता है; इसकी एक उपयोगी व्याख्या है - एक विषम अनुपात के रूप में - और यह व्यापकता-स्वतंत्र है।

कई अन्य मेट्रिक्स हैं, सबसे सरल सटीकता और परिशुद्धता#बाइनरी वर्गीकरण या फ्रैक्शन करेक्ट (एफसी) में, जो सही ढंग से वर्गीकृत किए गए सभी उदाहरणों के अंश को मापता है; पूरक भिन्न भिन्न (FiC) है। एफ-स्कोर वजन के विकल्प के माध्यम से सटीकता और रिकॉल को एक संख्या में जोड़ता है, जो कि संतुलित एफ-स्कोर (एफ F1 स्कोर) के समान होता है। कुछ मेट्रिक्स प्रतिगमन गुणांक से आते हैं: चिह्नितता और सूचना, और उनका ज्यामितीय माध्य, मैथ्यूज सहसंबंध गुणांक। अन्य मेट्रिक्स में यूडेन का जे आँकड़ा, अनिश्चितता गुणांक, फी गुणांक और कोहेन का कप्पा शामिल हैं।

निरंतर मानों को बाइनरी में परिवर्तित करना

ऐसे परीक्षण जिनके परिणाम निरंतर मान वाले होते हैं, जैसे कि अधिकांश रक्त मान, कटऑफ (संदर्भ मान) को परिभाषित करके कृत्रिम रूप से बाइनरी बनाया जा सकता है, परीक्षण के परिणाम को घनात्मक या ऋणात्मक परीक्षण के रूप में नामित किया जा सकता है, यह इस बात पर निर्भर करता है कि परिणामी मान इससे अधिक है या कम है। कट जाना।

हालाँकि, इस तरह के रूपांतरण से जानकारी का नुकसान होता है, क्योंकि परिणामी बाइनरी वर्गीकरण यह नहीं बताता है कि कोई मान कटऑफ से कितना ऊपर या नीचे है। नतीजतन, कटऑफ के करीब एक निरंतर मूल्य को बाइनरी में परिवर्तित करते समय, परिणामी घनात्मक पूर्वानुमानित मूल्य या ऋणात्मक पूर्वानुमानित मूल्य आम तौर पर निरंतर मूल्य से सीधे दिए गए पूर्वानुमानित मूल्य से अधिक होता है। ऐसे मामलों में, परीक्षण के घनात्मक या ऋणात्मक होने का पदनाम अनुचित रूप से उच्च निश्चितता का आभास देता है, जबकि मूल्य वास्तव में अनिश्चितता के अंतराल में होता है। उदाहरण के लिए, ह्यूमन कोरिओनिक गोनाडोट्रोपिन की मूत्र सांद्रता के निरंतर मूल्य के साथ, एक मूत्र गर्भावस्था परीक्षण जो एचसीजी के 52 एमआईयू/एमएल को मापता है, कटऑफ के रूप में 50 एमआईयू/एमएल के साथ घनात्मक दिखा सकता है, लेकिन वास्तव में अनिश्चितता के अंतराल में है, जो केवल मूल निरंतर मूल्य जानने से ही स्पष्ट हो सकता है। दूसरी ओर, कटऑफ से बहुत दूर एक परीक्षण परिणाम में आम तौर पर परिणामी घनात्मक या ऋणात्मक पूर्वानुमानित मूल्य होता है जो निरंतर मूल्य से दिए गए पूर्वानुमानित मूल्य से कम होता है। उदाहरण के लिए, 200,000 एमआईयू/एमएल का मूत्र एचसीजी मान गर्भावस्था की बहुत अधिक संभावना प्रदान करता है, लेकिन बाइनरी मूल्यों में रूपांतरण के परिणामस्वरूप यह 52 एमआईयू/एमएल के समान ही घनात्मक दिखता है।

यह भी देखें

संदर्भ

  1. Zhang & Zakhor, Richard & Avideh (2014). "LiDAR और कैमरों का उपयोग करके इनडोर पॉइंट क्लाउड पर विंडो क्षेत्रों की स्वचालित पहचान". VIP Lab Publications. CiteSeerX 10.1.1.649.303.
  2. Y. Lu and C. Rasmussen (2012). "Simplified markov random fields for efficient semantic labeling of 3D point clouds" (PDF). IROS.

ग्रन्थसूची