द्विआधारी वर्गीकरण: Difference between revisions
No edit summary |
No edit summary |
||
(4 intermediate revisions by 3 users not shown) | |||
Line 4: | Line 4: | ||
* सूचना पुनर्प्राप्ति में, यह तय करना कि कोई पृष्ठ खोज के [[परिणाम सेट]] में होना चाहिए या नहीं। | * सूचना पुनर्प्राप्ति में, यह तय करना कि कोई पृष्ठ खोज के [[परिणाम सेट]] में होना चाहिए या नहीं। | ||
बाइनरी वर्गीकरण एक व्यावहारिक स्थिति पर लागू होने वाला [[द्विभाजन]] है। कई व्यावहारिक बाइनरी वर्गीकरण समस्याओं में, दोनों समूह सममित नहीं हैं, और समग्र सटीकता के बजाय, विभिन्न प्रकार, और प्रकार, त्रुटियों का सापेक्ष अनुपात रुचि | बाइनरी वर्गीकरण एक व्यावहारिक स्थिति पर लागू होने वाला [[द्विभाजन]] है। कई व्यावहारिक बाइनरी वर्गीकरण समस्याओं में, दोनों समूह सममित नहीं हैं, और समग्र सटीकता के बजाय, विभिन्न प्रकार, और प्रकार, त्रुटियों का सापेक्ष अनुपात रुचि है। उदाहरण के लिए, चिकित्सा परीक्षण में, किसी बीमारी का तब पता लगाना जब वह उपस्थित न हो (''गलत घनात्मक और गलत ऋणात्मक''#गलत घनात्मक त्रुटि'') किसी बीमारी के उपस्थित होने पर उसका पता न लगाना (''गलत घनात्मक और गलत घनात्मक त्रुटि'') से अलग माना जाता है। फाल्स ऋणात्मक#गलत ऋणात्मक त्रुटि'')। | ||
==सांख्यिकीय बाइनरी वर्गीकरण== | ==सांख्यिकीय बाइनरी वर्गीकरण== | ||
Line 23: | Line 23: | ||
* लीनियर [[आनुवंशिक प्रोग्रामिंग|जेनेटिक]] [[आनुवंशिक प्रोग्रामिंग|प्रोग्रामिंग]] | * लीनियर [[आनुवंशिक प्रोग्रामिंग|जेनेटिक]] [[आनुवंशिक प्रोग्रामिंग|प्रोग्रामिंग]] | ||
अवलोकनों की संख्या, [[ फ़ीचर वेक्टर | फ़ीचर वेक्टर]] की आयामीता, डेटा में शोर और कई अन्य कारकों के आधार पर प्रत्येक क्लासिफायर केवल एक चुनिंदा डोमेन में सर्वश्रेष्ठ है। उदाहरण के लिए, यादृच्छिक वन 3डी पॉइंट क्लाउड के लिए [[ समर्थन वेक्टर यंत्र |सपोर्ट वेक्टर मशीन]] क्लासिफायर से बेहतर प्रदर्शन करते हैं।<ref>{{Cite journal|title = LiDAR और कैमरों का उपयोग करके इनडोर पॉइंट क्लाउड पर विंडो क्षेत्रों की स्वचालित पहचान|last = Zhang & Zakhor|first = Richard & Avideh|date = 2014|journal = VIP Lab Publications|citeseerx = 10.1.1.649.303}}</ref><ref>{{Cite journal |title = Simplified markov random fields for efficient semantic labeling of 3D point clouds|last = Y. Lu and C. Rasmussen|date = 2012|journal = IROS|url=http://nameless.cis.udel.edu/pubs/2012/LR12/yan_iros2012.pdf}}</ref> | अवलोकनों की संख्या, [[ फ़ीचर वेक्टर | फ़ीचर वेक्टर]] की आयामीता, डेटा में शोर और कई अन्य कारकों के आधार पर प्रत्येक क्लासिफायर केवल एक चुनिंदा डोमेन में सर्वश्रेष्ठ है। उदाहरण के लिए, यादृच्छिक वन 3डी पॉइंट क्लाउड के लिए [[ समर्थन वेक्टर यंत्र |सपोर्ट वेक्टर मशीन]] (एसवीएम) क्लासिफायर से बेहतर प्रदर्शन करते हैं।<ref>{{Cite journal|title = LiDAR और कैमरों का उपयोग करके इनडोर पॉइंट क्लाउड पर विंडो क्षेत्रों की स्वचालित पहचान|last = Zhang & Zakhor|first = Richard & Avideh|date = 2014|journal = VIP Lab Publications|citeseerx = 10.1.1.649.303}}</ref><ref>{{Cite journal |title = Simplified markov random fields for efficient semantic labeling of 3D point clouds|last = Y. Lu and C. Rasmussen|date = 2012|journal = IROS|url=http://nameless.cis.udel.edu/pubs/2012/LR12/yan_iros2012.pdf}}</ref> | ||
==बाइनरी क्लासिफायर का मूल्यांकन== | ==बाइनरी क्लासिफायर का मूल्यांकन== | ||
{{main|बाइनरी क्लासिफायर का मूल्यांकन}} | {{main|बाइनरी क्लासिफायर का मूल्यांकन}} | ||
[[Image:binary-classification-labeled.svg|thumb|220px|right|परीक्षण किए गए उदाहरणों के इस सेट में, विभाजक के बचे हुए उदाहरणों की स्थिति का परीक्षण किया जा रहा है; दाहिना आधा भाग नहीं। अंडाकार उन उदाहरणों को सीमित करता है जिन्हें एक परीक्षण एल्गोरिदम स्थिति के रूप में वर्गीकृत करता है। हरे क्षेत्र उन उदाहरणों को उजागर करते हैं जिन्हें परीक्षण एल्गोरिदम ने सही ढंग से वर्गीकृत किया है। लेबल संदर्भित करते हैं: <br /> | [[Image:binary-classification-labeled.svg|thumb|220px|right|परीक्षण किए गए उदाहरणों के इस सेट में, विभाजक के बचे हुए उदाहरणों की स्थिति का परीक्षण किया जा रहा है; दाहिना आधा भाग नहीं। अंडाकार उन उदाहरणों को सीमित करता है जिन्हें एक परीक्षण एल्गोरिदम स्थिति के रूप में वर्गीकृत करता है। हरे क्षेत्र उन उदाहरणों को उजागर करते हैं जिन्हें परीक्षण एल्गोरिदम ने सही ढंग से वर्गीकृत किया है। लेबल संदर्भित करते हैं: <br />TP=सच्चा घनात्मक; टीएन = सच्चा ऋणात्मक; FP=गलत घनात्मक (प्रकार I त्रुटि); एफएन=झूठा ऋणात्मक (प्रकार II त्रुटि); TPआर=सच्ची घनात्मक दर निर्धारित करने के लिए उदाहरणों का सेट; FPआर=झूठी घनात्मक दर निर्धारित करने के लिए उदाहरणों का सेट; पीपीवी=घनात्मक पूर्वानुमानित मूल्य; एनपीवी=ऋणात्मक पूर्वानुमानित मूल्य।]]ऐसे कई मेट्रिक्स हैं जिनका उपयोग किसी क्लासिफायरियर या भविष्यवक्ता के प्रदर्शन को मापने के लिए किया जा सकता है; अलग-अलग लक्ष्यों के कारण अलग-अलग क्षेत्रों में विशिष्ट मेट्रिक्स के लिए अलग-अलग प्राथमिकताएँ होती हैं। चिकित्सा में [[संवेदनशीलता और विशिष्टता]] का प्रायः उपयोग किया जाता है, जबकि सूचना पुनर्प्राप्ति में सटीकता और स्मरण को प्राथमिकता दी जाती है। एक महत्वपूर्ण अंतर उन मेट्रिक्स के बीच है जो इस बात से स्वतंत्र हैं कि जनसंख्या (व्यापकता) में प्रत्येक श्रेणी कितनी बार आती है, और मेट्रिक्स जो व्यापकता पर निर्भर करते हैं - दोनों प्रकार उपयोगी हैं, लेकिन उनके पास बहुत अलग गुण हैं। | ||
किसी विशिष्ट डेटा सेट के वर्गीकरण को देखते हुए, वास्तविक डेटा श्रेणी और निर्दिष्ट श्रेणी के चार बुनियादी संयोजन होते हैं: वास्तविक घनात्मक TP (सही घनात्मक असाइनमेंट), सही ऋणात्मक TN (सही ऋणात्मक असाइनमेंट), गलत घनात्मक FP (गलत घनात्मक असाइनमेंट), और गलत ऋणात्मक FN (गलत ऋणात्मक असाइनमेंट)। | किसी विशिष्ट डेटा सेट के वर्गीकरण को देखते हुए, वास्तविक डेटा श्रेणी और निर्दिष्ट श्रेणी के चार बुनियादी संयोजन होते हैं: वास्तविक घनात्मक TP (ट्रू पॉजिटिव/ सही घनात्मक असाइनमेंट), सही ऋणात्मक TN ((ट्रू ऋणात्मक/सही ऋणात्मक असाइनमेंट), गलत घनात्मक FP (गलत घनात्मक असाइनमेंट), और गलत ऋणात्मक FN (फाल्स नेगेटिव/गलत ऋणात्मक असाइनमेंट)। | ||
{| class="wikitable" | {| class="wikitable" | ||
! {{diagonal split header|Actual|Assigned}} | ! {{diagonal split header|Actual|Assigned}} | ||
! | ! टेस्ट आउटकम ''घनात्मक'' | ||
! | ! टेस्ट आउटकम ''ऋणात्मक'' | ||
|- | |- | ||
! | ! स्थिति घनात्मक | ||
| align="center"| | | align="center"| सही ''घनात्मक'' | ||
| align="center"| | | align="center"| गलत ''ऋणात्मक'' | ||
|- | |- | ||
! | ! स्थिति ऋणात्मक | ||
| align="center"| | | align="center"| गलत ''घनात्मक'' | ||
| align="center"| | | align="center"| सही ''ऋणात्मक'' | ||
|} | |} | ||
इन्हें 2×2 [[आकस्मिक तालिका]] में व्यवस्थित किया जा सकता है, जिसमें वास्तविक मूल्य के अनुरूप कॉलम होंगे - स्थिति घनात्मक या स्थिति ऋणात्मक - और वर्गीकरण मूल्य के अनुरूप | इन्हें 2×2 [[आकस्मिक तालिका]] में व्यवस्थित किया जा सकता है, जिसमें वास्तविक मूल्य के अनुरूप कॉलम होंगे - स्थिति घनात्मक या स्थिति ऋणात्मक - और वर्गीकरण मूल्य के अनुरूप रोव - परीक्षण परिणाम घनात्मक या परीक्षण परिणाम ऋणात्मक। | ||
===आठ बुनियादी अनुपात=== | ===आठ बुनियादी अनुपात=== | ||
इस तालिका से आठ बुनियादी अनुपातों की गणना की जा सकती है, जो चार पूरक जोड़े (प्रत्येक जोड़े का योग 1) में आते हैं। इन्हें चार संख्याओं में से प्रत्येक को उसकी | इस तालिका से आठ बुनियादी अनुपातों की गणना की जा सकती है, जो चार पूरक जोड़े (प्रत्येक जोड़े का योग 1) में आते हैं। इन्हें चार संख्याओं में से प्रत्येक को उसकी रोव या कॉलम के योग से विभाजित करके प्राप्त किया जाता है, जिससे आठ संख्याएँ प्राप्त होती हैं, जिन्हें सामान्य रूप से वास्तविक घनात्मक रोव अनुपात या गलत ऋणात्मक कॉलम अनुपात के रूप में संदर्भित किया जा सकता है। | ||
इस प्रकार | इस प्रकार कॉलम अनुपात के दो जोड़े और रोव अनुपात के दो जोड़े हैं, और प्रत्येक जोड़े में से एक अनुपात चुनकर कोई इन्हें चार संख्याओं के साथ सारांशित कर सकता है - अन्य चार संख्याएँ पूरक हैं। | ||
रोव के अनुपात हैं: | |||
*ट्रू पॉजिटिव रेट (TPR) = (TP/(TP+FN)), उर्फ [[संवेदनशीलता (परीक्षण)]] या रिकॉल ([[सूचना]] पुनर्प्राप्ति)। ये ''स्थिति वाली जनसंख्या'' का अनुपात है जिसके लिए परीक्षण सही है। | *ट्रू पॉजिटिव रेट (TPR) = (TP/(TP+FN)), उर्फ [[संवेदनशीलता (परीक्षण)]] या रिकॉल ([[सूचना]] पुनर्प्राप्ति)। ये ''स्थिति वाली जनसंख्या'' का अनुपात है जिसके लिए परीक्षण सही है। | ||
**फाल्स नेगेटिव रेट (FNR) के पूरक के साथ = (FN/(TP+FN)) | **फाल्स नेगेटिव रेट (FNR) के पूरक के साथ = (FN/(TP+FN)) | ||
Line 58: | Line 58: | ||
**पूरक [[झूठी सकारात्मक दर|फाल्स पॉजिटिव रेट]] (FPR) = (FP/(TN+FP)) के साथ, जिसे व्यापकता से स्वतंत्र भी कहा जाता है | **पूरक [[झूठी सकारात्मक दर|फाल्स पॉजिटिव रेट]] (FPR) = (FP/(TN+FP)) के साथ, जिसे व्यापकता से स्वतंत्र भी कहा जाता है | ||
कॉलम के अनुपात हैं: | |||
*[[सकारात्मक पूर्वानुमानित मूल्य|घनात्मक पूर्वानुमानित मूल्य]] ( | *पॉजिटिव प्रेडिक्टिव वैल्यू ([[सकारात्मक पूर्वानुमानित मूल्य|घनात्मक पूर्वानुमानित मूल्य]]) (PPV, उर्फ [[परिशुद्धता (सूचना पुनर्प्राप्ति)]]) (TP/(TP+FP))। ये ''किसी दिए गए परीक्षा परिणाम वाली जनसंख्या'' का अनुपात है जिसके लिए परीक्षण सही है। | ||
**[[झूठी खोज दर]] (FDR) (FP/(TP+FP)) के पूरक के साथ | **[[झूठी खोज दर|फॉल्स डिस्कवरी रेट]] (FDR) (FP/(TP+FP)) के पूरक के साथ | ||
*ऋणात्मक पूर्वानुमानित मान (NPV) (TN/(TN+FN))) | *नेगेटिव प्रेडिक्टिव वैल्यू (ऋणात्मक पूर्वानुमानित मान) (NPV) (TN/(TN+FN))) | ||
**[[झूठी चूक दर]] (FOR) (FN/(TN+FN)) के पूरक के साथ, जिसे व्यापकता पर निर्भरता भी कहा जाता है। | **[[झूठी चूक दर|फॉल्स ओमिशन रेट]] (FOR) (FN/(TN+FN)) के पूरक के साथ, जिसे व्यापकता पर निर्भरता भी कहा जाता है। | ||
नैदानिक परीक्षण में, उपयोग किए जाने वाले मुख्य अनुपात वास्तविक | नैदानिक परीक्षण में, उपयोग किए जाने वाले मुख्य अनुपात वास्तविक कॉलम अनुपात हैं - [[वास्तविक सकारात्मक दर|वास्तविक घनात्मक दर]] और [[वास्तविक नकारात्मक दर|वास्तविक ऋणात्मक दर]] - जहां उन्हें संवेदनशीलता और विशिष्टता के रूप में जाना जाता है। सूचनात्मक पुनर्प्राप्ति में, मुख्य अनुपात वास्तविक घनात्मक अनुपात (रोव और कॉलम) हैं - घनात्मक पूर्वानुमानित मूल्य और वास्तविक घनात्मक दर - जहां उन्हें सटीकता और रिकॉल के रूप में जाना जाता है। | ||
कोई व्यक्ति अनुपातों की एक पूरक जोड़ी का अनुपात ले सकता है, जिससे नैदानिक परीक्षण में चार संभावना अनुपात (अनुपातों के दो | कोई व्यक्ति अनुपातों की एक पूरक जोड़ी का अनुपात ले सकता है, जिससे नैदानिक परीक्षण में चार संभावना अनुपात (अनुपातों के दो कॉलम अनुपात, अनुपातों के दो रोव अनुपात) प्राप्त होते हैं। यह मुख्य रूप से कॉलम (स्थिति) अनुपात के लिए किया जाता है, जो नैदानिक परीक्षण में संभावना अनुपात उत्पन्न करता है। अनुपातों के इन समूहों में से किसी एक का अनुपात लेने पर अंतिम अनुपात, [[डायग्नोस्टिक ऑड्स अनुपात]] (डीओआर) प्राप्त होता है। इसे सीधे (TP×TN)/(FP×FN) = (TP/FN)/(FP/TN) के रूप में भी परिभाषित किया जा सकता है; इसकी एक उपयोगी व्याख्या है - एक [[विषम अनुपात]] के रूप में - और यह व्यापकता-स्वतंत्र है। | ||
कई अन्य मेट्रिक्स हैं, सबसे सरल सटीकता और परिशुद्धता | कई अन्य मेट्रिक्स हैं, सबसे सरल सटीकता और परिशुद्धता बाइनरी वर्गीकरण या फ्रैक्शन करेक्ट (FC) में, जो सही ढंग से वर्गीकृत किए गए सभी उदाहरणों के अंश को मापता है; फ्रैक्शन इनकरेक्ट (FiC) है। [[एफ-स्कोर|F-स्कोर]] वजन के विकल्प के माध्यम से सटीकता और रिकॉल को एक संख्या में जोड़ता है, जो कि संतुलित F-स्कोर ([[F1 स्कोर]]) के समान होता है। कुछ मेट्रिक्स [[प्रतिगमन गुणांक]] से आते हैं: [[चिह्नितता]] और सूचना, और उनका ज्यामितीय माध्य, [[मैथ्यूज सहसंबंध गुणांक]]। अन्य मेट्रिक्स में यूडेन का जे आँकड़ा, [[अनिश्चितता गुणांक]], फी गुणांक और कोहेन का कप्पा सम्मिलित हैं। | ||
==निरंतर | ==निरंतर मान को बाइनरी में परिवर्तित करना== | ||
ऐसे परीक्षण जिनके परिणाम निरंतर मान वाले होते हैं, जैसे कि अधिकांश | ऐसे परीक्षण जिनके परिणाम निरंतर मान वाले होते हैं, जैसे कि अधिकांश [[ब्लड वैल्यू]] , कटऑफ (संदर्भ मान) को परिभाषित करके कृत्रिम रूप से बाइनरी बनाया जा सकता है, परीक्षण के परिणाम को [[सकारात्मक या नकारात्मक परीक्षण|घनात्मक या ऋणात्मक परीक्षण]] के रूप में नामित किया जा सकता है, यह इस बात पर निर्भर करता है कि परिणामी मान इससे अधिक है या कटऑफ से कम है। | ||
हालाँकि, इस तरह के रूपांतरण से जानकारी का नुकसान होता है, क्योंकि परिणामी बाइनरी वर्गीकरण यह नहीं बताता है कि कोई मान कटऑफ से कितना ऊपर या नीचे है। नतीजतन, कटऑफ के | हालाँकि, इस तरह के रूपांतरण से जानकारी का नुकसान होता है, क्योंकि परिणामी बाइनरी वर्गीकरण यह नहीं बताता है कि कोई मान कटऑफ से कितना ऊपर या नीचे है। नतीजतन, कटऑफ के नज़दीक एक निरंतर मूल्य को बाइनरी में परिवर्तित करते समय, परिणामी घनात्मक पूर्वानुमानित मूल्य या ऋणात्मक पूर्वानुमानित मूल्य सामान्यतः निरंतर मूल्य से सीधे दिए गए पूर्वानुमानित मूल्य से अधिक होता है। ऐसे परिस्थितियो में, परीक्षण के घनात्मक या ऋणात्मक होने का पदनाम अनुचित रूप से उच्च निश्चितता का आभास देता है, जबकि मूल्य वास्तव में अनिश्चितता के अंतराल में होता है। उदाहरण के लिए, [[ह्यूमन कोरिओनिक गोनाडोट्रोपिन]] ([[hCG]]) की मूत्र सांद्रता के निरंतर मूल्य के साथ, एक मूत्र [[गर्भावस्था परीक्षण]] जो [[hCG]] के 52 mlU/ml को मापता है, कटऑफ के रूप में 50 mlU/ml के साथ घनात्मक दिखा सकता है, लेकिन वास्तव में अनिश्चितता के अंतराल में है, जो केवल मूल निरंतर मूल्य जानने से ही स्पष्ट हो सकता है। दूसरी ओर, कटऑफ से बहुत दूर एक परीक्षण परिणाम में सामान्यतः परिणामी घनात्मक या ऋणात्मक पूर्वानुमानित मूल्य होता है जो निरंतर मूल्य से दिए गए पूर्वानुमानित मूल्य से कम होता है। उदाहरण के लिए, 200,000 mlU/ml का मूत्र [[hCG]] मान गर्भावस्था की बहुत अधिक संभावना प्रदान करता है, लेकिन बाइनरी मूल्यों में रूपांतरण के परिणामस्वरूप यह 52 mlU/ml के समान ही घनात्मक दिखता है। | ||
==यह भी देखें== | ==यह भी देखें== | ||
{{Portal|Mathematics}} | {{Portal|Mathematics}} | ||
* बायेसियन अनुमान | * बायेसियन अनुमान के उदाहरण | ||
* वर्गीकरण नियम | * वर्गीकरण नियम | ||
* [[असमंजस का जाल]] | * [[असमंजस का जाल|भ्रम (कन्फूशन) मैट्रिक्स]] | ||
* [[पता लगाने का सिद्धांत]] | * [[पता लगाने का सिद्धांत]] | ||
* [[कर्नेल विधियाँ]] | * [[कर्नेल विधियाँ]] | ||
Line 85: | Line 85: | ||
* [[मल्टी-लेबल वर्गीकरण]] | * [[मल्टी-लेबल वर्गीकरण]] | ||
* एक-वर्ग वर्गीकरण | * एक-वर्ग वर्गीकरण | ||
*अभियोजक | *अभियोजक का भ्रम (प्रासीक्यूटर फलस्य) | ||
* [[प्राप्तकर्ता परिचालन विशेषता]] | * [[प्राप्तकर्ता परिचालन विशेषता]] | ||
* थ्रेसहोल्डिंग (छवि प्रसंस्करण) | * थ्रेसहोल्डिंग (छवि प्रसंस्करण) | ||
*अनिश्चितता गुणांक, उर्फ प्रवीणता | *अनिश्चितता गुणांक, उर्फ प्रवीणता | ||
*[[गुणात्मक संपत्ति]] | *[[गुणात्मक संपत्ति|गुणात्मक गुण]] | ||
* परिशुद्धता और स्मरण (समकक्ष वर्गीकरण स्कीमा) | * परिशुद्धता और स्मरण (समकक्ष वर्गीकरण स्कीमा) | ||
Line 98: | Line 98: | ||
* John Shawe-Taylor and Nello Cristianini. ''Kernel Methods for Pattern Analysis''. Cambridge University Press, 2004. {{ISBN|0-521-81397-2}} ([https://kernelmethods.blogs.bristol.ac.uk/ Website for the book]) | * John Shawe-Taylor and Nello Cristianini. ''Kernel Methods for Pattern Analysis''. Cambridge University Press, 2004. {{ISBN|0-521-81397-2}} ([https://kernelmethods.blogs.bristol.ac.uk/ Website for the book]) | ||
* Bernhard Schölkopf and A. J. Smola: ''Learning with Kernels''. MIT Press, Cambridge, Massachusetts, 2002. {{ISBN|0-262-19475-9}} | * Bernhard Schölkopf and A. J. Smola: ''Learning with Kernels''. MIT Press, Cambridge, Massachusetts, 2002. {{ISBN|0-262-19475-9}} | ||
[[Category:Articles with hatnote templates targeting a nonexistent page]] | |||
[[Category: | |||
[[Category:Created On 21/07/2023]] | [[Category:Created On 21/07/2023]] | ||
[[Category:Machine Translated Page]] | |||
[[Category:Pages with empty portal template]] | |||
[[Category:Pages with script errors]] | |||
[[Category:Portal templates with redlinked portals]] | |||
[[Category:Templates Vigyan Ready]] | |||
[[Category:यंत्र अधिगम]] | |||
[[Category:सांख्यिकीय वर्गीकरण]] |
Latest revision as of 17:18, 8 August 2023
बाइनरी वर्गीकरण एक वर्गीकरण नियम के आधार पर एक समुच्चय (गणित) के तत्वों को दो समूहों (प्रत्येक को वर्ग कहा जाता है) में सांख्यिकीय वर्गीकरण का कार्य है। विशिष्ट द्विआधारी वर्गीकरण समस्याओं में सम्मिलित हैं:
- यह निर्धारित करने के लिए चिकित्सा परीक्षण कि मरीज को कोई बीमारी है या नहीं;
- उद्योग में गुणवत्ता नियंत्रण, यह तय करना कि क्या कोई विनिर्देश पूरा किया गया है;
- सूचना पुनर्प्राप्ति में, यह तय करना कि कोई पृष्ठ खोज के परिणाम सेट में होना चाहिए या नहीं।
बाइनरी वर्गीकरण एक व्यावहारिक स्थिति पर लागू होने वाला द्विभाजन है। कई व्यावहारिक बाइनरी वर्गीकरण समस्याओं में, दोनों समूह सममित नहीं हैं, और समग्र सटीकता के बजाय, विभिन्न प्रकार, और प्रकार, त्रुटियों का सापेक्ष अनुपात रुचि है। उदाहरण के लिए, चिकित्सा परीक्षण में, किसी बीमारी का तब पता लगाना जब वह उपस्थित न हो (गलत घनात्मक और गलत ऋणात्मक#गलत घनात्मक त्रुटि) किसी बीमारी के उपस्थित होने पर उसका पता न लगाना (गलत घनात्मक और गलत घनात्मक त्रुटि) से अलग माना जाता है। फाल्स ऋणात्मक#गलत ऋणात्मक त्रुटि)।
सांख्यिकीय बाइनरी वर्गीकरण
सांख्यिकीय वर्गीकरण यंत्र अधिगम में अध्ययन की जाने वाली एक समस्या है। यह एक प्रकार की पर्यवेक्षित शिक्षा है, मशीन लर्निंग की एक विधि जहां श्रेणियां पूर्वनिर्धारित होती हैं, और नई संभाव्य टिप्पणियों को उक्त श्रेणियों में वर्गीकृत करने के लिए उपयोग किया जाता है। जब केवल दो श्रेणियां होती हैं तो समस्या को सांख्यिकीय बाइनरी वर्गीकरण के रूप में जाना जाता है।
बाइनरी वर्गीकरण के लिए सामान्यतः उपयोग की जाने वाली कुछ विधियाँ हैं:
- डिसिशन ट्री
- रैंडम फॉरेस्ट (यादृच्छिक वन)
- बायेसियन नेटवर्क
- सपोर्ट वेक्टर मशीन
तर्कगणित प्रतिगमन (लोगिस्टिक रिग्रेशन)
अवलोकनों की संख्या, फ़ीचर वेक्टर की आयामीता, डेटा में शोर और कई अन्य कारकों के आधार पर प्रत्येक क्लासिफायर केवल एक चुनिंदा डोमेन में सर्वश्रेष्ठ है। उदाहरण के लिए, यादृच्छिक वन 3डी पॉइंट क्लाउड के लिए सपोर्ट वेक्टर मशीन (एसवीएम) क्लासिफायर से बेहतर प्रदर्शन करते हैं।[1][2]
बाइनरी क्लासिफायर का मूल्यांकन
ऐसे कई मेट्रिक्स हैं जिनका उपयोग किसी क्लासिफायरियर या भविष्यवक्ता के प्रदर्शन को मापने के लिए किया जा सकता है; अलग-अलग लक्ष्यों के कारण अलग-अलग क्षेत्रों में विशिष्ट मेट्रिक्स के लिए अलग-अलग प्राथमिकताएँ होती हैं। चिकित्सा में संवेदनशीलता और विशिष्टता का प्रायः उपयोग किया जाता है, जबकि सूचना पुनर्प्राप्ति में सटीकता और स्मरण को प्राथमिकता दी जाती है। एक महत्वपूर्ण अंतर उन मेट्रिक्स के बीच है जो इस बात से स्वतंत्र हैं कि जनसंख्या (व्यापकता) में प्रत्येक श्रेणी कितनी बार आती है, और मेट्रिक्स जो व्यापकता पर निर्भर करते हैं - दोनों प्रकार उपयोगी हैं, लेकिन उनके पास बहुत अलग गुण हैं।
किसी विशिष्ट डेटा सेट के वर्गीकरण को देखते हुए, वास्तविक डेटा श्रेणी और निर्दिष्ट श्रेणी के चार बुनियादी संयोजन होते हैं: वास्तविक घनात्मक TP (ट्रू पॉजिटिव/ सही घनात्मक असाइनमेंट), सही ऋणात्मक TN ((ट्रू ऋणात्मक/सही ऋणात्मक असाइनमेंट), गलत घनात्मक FP (गलत घनात्मक असाइनमेंट), और गलत ऋणात्मक FN (फाल्स नेगेटिव/गलत ऋणात्मक असाइनमेंट)।
Assigned Actual
|
टेस्ट आउटकम घनात्मक | टेस्ट आउटकम ऋणात्मक |
---|---|---|
स्थिति घनात्मक | सही घनात्मक | गलत ऋणात्मक |
स्थिति ऋणात्मक | गलत घनात्मक | सही ऋणात्मक |
इन्हें 2×2 आकस्मिक तालिका में व्यवस्थित किया जा सकता है, जिसमें वास्तविक मूल्य के अनुरूप कॉलम होंगे - स्थिति घनात्मक या स्थिति ऋणात्मक - और वर्गीकरण मूल्य के अनुरूप रोव - परीक्षण परिणाम घनात्मक या परीक्षण परिणाम ऋणात्मक।
आठ बुनियादी अनुपात
इस तालिका से आठ बुनियादी अनुपातों की गणना की जा सकती है, जो चार पूरक जोड़े (प्रत्येक जोड़े का योग 1) में आते हैं। इन्हें चार संख्याओं में से प्रत्येक को उसकी रोव या कॉलम के योग से विभाजित करके प्राप्त किया जाता है, जिससे आठ संख्याएँ प्राप्त होती हैं, जिन्हें सामान्य रूप से वास्तविक घनात्मक रोव अनुपात या गलत ऋणात्मक कॉलम अनुपात के रूप में संदर्भित किया जा सकता है।
इस प्रकार कॉलम अनुपात के दो जोड़े और रोव अनुपात के दो जोड़े हैं, और प्रत्येक जोड़े में से एक अनुपात चुनकर कोई इन्हें चार संख्याओं के साथ सारांशित कर सकता है - अन्य चार संख्याएँ पूरक हैं।
रोव के अनुपात हैं:
- ट्रू पॉजिटिव रेट (TPR) = (TP/(TP+FN)), उर्फ संवेदनशीलता (परीक्षण) या रिकॉल (सूचना पुनर्प्राप्ति)। ये स्थिति वाली जनसंख्या का अनुपात है जिसके लिए परीक्षण सही है।
- फाल्स नेगेटिव रेट (FNR) के पूरक के साथ = (FN/(TP+FN))
- ट्रू पॉजिटिव रेट (TNR) = (TN/(TN+FP), उर्फ विशिष्टता (परीक्षण) (SPC),
- पूरक फाल्स पॉजिटिव रेट (FPR) = (FP/(TN+FP)) के साथ, जिसे व्यापकता से स्वतंत्र भी कहा जाता है
कॉलम के अनुपात हैं:
- पॉजिटिव प्रेडिक्टिव वैल्यू (घनात्मक पूर्वानुमानित मूल्य) (PPV, उर्फ परिशुद्धता (सूचना पुनर्प्राप्ति)) (TP/(TP+FP))। ये किसी दिए गए परीक्षा परिणाम वाली जनसंख्या का अनुपात है जिसके लिए परीक्षण सही है।
- फॉल्स डिस्कवरी रेट (FDR) (FP/(TP+FP)) के पूरक के साथ
- नेगेटिव प्रेडिक्टिव वैल्यू (ऋणात्मक पूर्वानुमानित मान) (NPV) (TN/(TN+FN)))
- फॉल्स ओमिशन रेट (FOR) (FN/(TN+FN)) के पूरक के साथ, जिसे व्यापकता पर निर्भरता भी कहा जाता है।
नैदानिक परीक्षण में, उपयोग किए जाने वाले मुख्य अनुपात वास्तविक कॉलम अनुपात हैं - वास्तविक घनात्मक दर और वास्तविक ऋणात्मक दर - जहां उन्हें संवेदनशीलता और विशिष्टता के रूप में जाना जाता है। सूचनात्मक पुनर्प्राप्ति में, मुख्य अनुपात वास्तविक घनात्मक अनुपात (रोव और कॉलम) हैं - घनात्मक पूर्वानुमानित मूल्य और वास्तविक घनात्मक दर - जहां उन्हें सटीकता और रिकॉल के रूप में जाना जाता है।
कोई व्यक्ति अनुपातों की एक पूरक जोड़ी का अनुपात ले सकता है, जिससे नैदानिक परीक्षण में चार संभावना अनुपात (अनुपातों के दो कॉलम अनुपात, अनुपातों के दो रोव अनुपात) प्राप्त होते हैं। यह मुख्य रूप से कॉलम (स्थिति) अनुपात के लिए किया जाता है, जो नैदानिक परीक्षण में संभावना अनुपात उत्पन्न करता है। अनुपातों के इन समूहों में से किसी एक का अनुपात लेने पर अंतिम अनुपात, डायग्नोस्टिक ऑड्स अनुपात (डीओआर) प्राप्त होता है। इसे सीधे (TP×TN)/(FP×FN) = (TP/FN)/(FP/TN) के रूप में भी परिभाषित किया जा सकता है; इसकी एक उपयोगी व्याख्या है - एक विषम अनुपात के रूप में - और यह व्यापकता-स्वतंत्र है।
कई अन्य मेट्रिक्स हैं, सबसे सरल सटीकता और परिशुद्धता बाइनरी वर्गीकरण या फ्रैक्शन करेक्ट (FC) में, जो सही ढंग से वर्गीकृत किए गए सभी उदाहरणों के अंश को मापता है; फ्रैक्शन इनकरेक्ट (FiC) है। F-स्कोर वजन के विकल्प के माध्यम से सटीकता और रिकॉल को एक संख्या में जोड़ता है, जो कि संतुलित F-स्कोर (F1 स्कोर) के समान होता है। कुछ मेट्रिक्स प्रतिगमन गुणांक से आते हैं: चिह्नितता और सूचना, और उनका ज्यामितीय माध्य, मैथ्यूज सहसंबंध गुणांक। अन्य मेट्रिक्स में यूडेन का जे आँकड़ा, अनिश्चितता गुणांक, फी गुणांक और कोहेन का कप्पा सम्मिलित हैं।
निरंतर मान को बाइनरी में परिवर्तित करना
ऐसे परीक्षण जिनके परिणाम निरंतर मान वाले होते हैं, जैसे कि अधिकांश ब्लड वैल्यू , कटऑफ (संदर्भ मान) को परिभाषित करके कृत्रिम रूप से बाइनरी बनाया जा सकता है, परीक्षण के परिणाम को घनात्मक या ऋणात्मक परीक्षण के रूप में नामित किया जा सकता है, यह इस बात पर निर्भर करता है कि परिणामी मान इससे अधिक है या कटऑफ से कम है।
हालाँकि, इस तरह के रूपांतरण से जानकारी का नुकसान होता है, क्योंकि परिणामी बाइनरी वर्गीकरण यह नहीं बताता है कि कोई मान कटऑफ से कितना ऊपर या नीचे है। नतीजतन, कटऑफ के नज़दीक एक निरंतर मूल्य को बाइनरी में परिवर्तित करते समय, परिणामी घनात्मक पूर्वानुमानित मूल्य या ऋणात्मक पूर्वानुमानित मूल्य सामान्यतः निरंतर मूल्य से सीधे दिए गए पूर्वानुमानित मूल्य से अधिक होता है। ऐसे परिस्थितियो में, परीक्षण के घनात्मक या ऋणात्मक होने का पदनाम अनुचित रूप से उच्च निश्चितता का आभास देता है, जबकि मूल्य वास्तव में अनिश्चितता के अंतराल में होता है। उदाहरण के लिए, ह्यूमन कोरिओनिक गोनाडोट्रोपिन (hCG) की मूत्र सांद्रता के निरंतर मूल्य के साथ, एक मूत्र गर्भावस्था परीक्षण जो hCG के 52 mlU/ml को मापता है, कटऑफ के रूप में 50 mlU/ml के साथ घनात्मक दिखा सकता है, लेकिन वास्तव में अनिश्चितता के अंतराल में है, जो केवल मूल निरंतर मूल्य जानने से ही स्पष्ट हो सकता है। दूसरी ओर, कटऑफ से बहुत दूर एक परीक्षण परिणाम में सामान्यतः परिणामी घनात्मक या ऋणात्मक पूर्वानुमानित मूल्य होता है जो निरंतर मूल्य से दिए गए पूर्वानुमानित मूल्य से कम होता है। उदाहरण के लिए, 200,000 mlU/ml का मूत्र hCG मान गर्भावस्था की बहुत अधिक संभावना प्रदान करता है, लेकिन बाइनरी मूल्यों में रूपांतरण के परिणामस्वरूप यह 52 mlU/ml के समान ही घनात्मक दिखता है।
यह भी देखें
- बायेसियन अनुमान के उदाहरण
- वर्गीकरण नियम
- भ्रम (कन्फूशन) मैट्रिक्स
- पता लगाने का सिद्धांत
- कर्नेल विधियाँ
- बहुवर्ग वर्गीकरण
- मल्टी-लेबल वर्गीकरण
- एक-वर्ग वर्गीकरण
- अभियोजक का भ्रम (प्रासीक्यूटर फलस्य)
- प्राप्तकर्ता परिचालन विशेषता
- थ्रेसहोल्डिंग (छवि प्रसंस्करण)
- अनिश्चितता गुणांक, उर्फ प्रवीणता
- गुणात्मक गुण
- परिशुद्धता और स्मरण (समकक्ष वर्गीकरण स्कीमा)
संदर्भ
- ↑ Zhang & Zakhor, Richard & Avideh (2014). "LiDAR और कैमरों का उपयोग करके इनडोर पॉइंट क्लाउड पर विंडो क्षेत्रों की स्वचालित पहचान". VIP Lab Publications. CiteSeerX 10.1.1.649.303.
- ↑ Y. Lu and C. Rasmussen (2012). "Simplified markov random fields for efficient semantic labeling of 3D point clouds" (PDF). IROS.
ग्रन्थसूची
- Nello Cristianini and John Shawe-Taylor. An Introduction to Support Vector Machines and other kernel-based learning methods. Cambridge University Press, 2000. ISBN 0-521-78019-5 ([1] SVM Book)
- John Shawe-Taylor and Nello Cristianini. Kernel Methods for Pattern Analysis. Cambridge University Press, 2004. ISBN 0-521-81397-2 (Website for the book)
- Bernhard Schölkopf and A. J. Smola: Learning with Kernels. MIT Press, Cambridge, Massachusetts, 2002. ISBN 0-262-19475-9