द्विआधारी वर्गीकरण: Difference between revisions
(Created page with "{{More citations needed|date=May 2011}} बाइनरी वर्गीकरण एक वर्गीकरण नियम के आधार पर एक से...") |
No edit summary |
||
(6 intermediate revisions by 3 users not shown) | |||
Line 1: | Line 1: | ||
बाइनरी वर्गीकरण एक [[वर्गीकरण नियम]] के आधार पर एक [[सेट (गणित)|समुच्चय (गणित)]] के तत्वों को दो समूहों (प्रत्येक को ''वर्ग'' कहा जाता है) में [[सांख्यिकीय वर्गीकरण]] का कार्य है। विशिष्ट द्विआधारी वर्गीकरण समस्याओं में सम्मिलित हैं: | |||
बाइनरी वर्गीकरण एक [[वर्गीकरण नियम]] के आधार पर एक [[सेट (गणित)]] के तत्वों को दो समूहों (प्रत्येक को ''वर्ग'' कहा जाता है) में [[सांख्यिकीय वर्गीकरण]] का कार्य है। विशिष्ट द्विआधारी वर्गीकरण समस्याओं में | |||
* यह निर्धारित करने के लिए चिकित्सा परीक्षण कि मरीज को कोई बीमारी है या नहीं; | * यह निर्धारित करने के लिए चिकित्सा परीक्षण कि मरीज को कोई बीमारी है या नहीं; | ||
* उद्योग में [[गुणवत्ता नियंत्रण]], यह तय करना कि क्या कोई विनिर्देश पूरा किया गया है; | * उद्योग में [[गुणवत्ता नियंत्रण]], यह तय करना कि क्या कोई विनिर्देश पूरा किया गया है; | ||
* सूचना पुनर्प्राप्ति में, यह तय करना कि कोई पृष्ठ खोज के [[परिणाम सेट]] में होना चाहिए या नहीं। | * सूचना पुनर्प्राप्ति में, यह तय करना कि कोई पृष्ठ खोज के [[परिणाम सेट]] में होना चाहिए या नहीं। | ||
बाइनरी वर्गीकरण एक व्यावहारिक स्थिति पर लागू होने वाला [[द्विभाजन]] है। कई व्यावहारिक बाइनरी वर्गीकरण समस्याओं में, दोनों समूह सममित नहीं हैं, और समग्र सटीकता के बजाय, विभिन्न प्रकार | बाइनरी वर्गीकरण एक व्यावहारिक स्थिति पर लागू होने वाला [[द्विभाजन]] है। कई व्यावहारिक बाइनरी वर्गीकरण समस्याओं में, दोनों समूह सममित नहीं हैं, और समग्र सटीकता के बजाय, विभिन्न प्रकार, और प्रकार, त्रुटियों का सापेक्ष अनुपात रुचि है। उदाहरण के लिए, चिकित्सा परीक्षण में, किसी बीमारी का तब पता लगाना जब वह उपस्थित न हो (''गलत घनात्मक और गलत ऋणात्मक''#गलत घनात्मक त्रुटि'') किसी बीमारी के उपस्थित होने पर उसका पता न लगाना (''गलत घनात्मक और गलत घनात्मक त्रुटि'') से अलग माना जाता है। फाल्स ऋणात्मक#गलत ऋणात्मक त्रुटि'')। | ||
==सांख्यिकीय बाइनरी वर्गीकरण== | ==सांख्यिकीय बाइनरी वर्गीकरण== | ||
सांख्यिकीय वर्गीकरण [[ यंत्र अधिगम ]] में अध्ययन की जाने वाली एक समस्या है। यह एक प्रकार की पर्यवेक्षित शिक्षा है, मशीन लर्निंग की एक विधि जहां श्रेणियां पूर्वनिर्धारित होती हैं, और नई संभाव्य टिप्पणियों को उक्त श्रेणियों में वर्गीकृत करने के लिए उपयोग किया जाता है। जब केवल दो श्रेणियां होती हैं तो समस्या को सांख्यिकीय बाइनरी वर्गीकरण के रूप में जाना जाता है। | सांख्यिकीय वर्गीकरण [[ यंत्र अधिगम ]] में अध्ययन की जाने वाली एक समस्या है। यह एक प्रकार की पर्यवेक्षित शिक्षा है, मशीन लर्निंग की एक विधि जहां श्रेणियां पूर्वनिर्धारित होती हैं, और नई संभाव्य टिप्पणियों को उक्त श्रेणियों में वर्गीकृत करने के लिए उपयोग किया जाता है। जब केवल दो श्रेणियां होती हैं तो समस्या को सांख्यिकीय बाइनरी वर्गीकरण के रूप में जाना जाता है। | ||
बाइनरी वर्गीकरण के लिए | बाइनरी वर्गीकरण के लिए सामान्यतः उपयोग की जाने वाली कुछ विधियाँ हैं: | ||
* [[निर्णय वृक्ष सीखना]] | * [[निर्णय वृक्ष सीखना|डिसिशन ट्री]] | ||
* [[बेतरतीब जंगल]] | * [[बेतरतीब जंगल|रैंडम फॉरेस्ट]] (यादृच्छिक वन) | ||
* [[बायेसियन नेटवर्क]] | * [[बायेसियन नेटवर्क]] | ||
* | * सपोर्ट वेक्टर मशीन | ||
तर्कगणित प्रतिगमन (लोगिस्टिक रिग्रेशन) | |||
* [[संभार तन्त्र परावर्तन]] | * [[संभार तन्त्र परावर्तन|न्यूरल ]][[बायेसियन नेटवर्क|नेटवर्क]] | ||
* [[प्रोबिट मॉडल]] | * [[प्रोबिट मॉडल]] | ||
[[रैखिक आनुवंशिक प्रोग्रामिंग]] | |||
* [[रैखिक आनुवंशिक प्रोग्रामिंग|जेनेटिक प्रोग्रामिंग]] | |||
* [[मल्टी एक्सप्रेशन प्रोग्रामिंग]] | * [[मल्टी एक्सप्रेशन प्रोग्रामिंग]] | ||
* | * लीनियर [[आनुवंशिक प्रोग्रामिंग|जेनेटिक]] [[आनुवंशिक प्रोग्रामिंग|प्रोग्रामिंग]] | ||
अवलोकनों की संख्या, [[ फ़ीचर वेक्टर | फ़ीचर वेक्टर]] की आयामीता, डेटा में शोर और कई अन्य कारकों के आधार पर प्रत्येक क्लासिफायर केवल एक चुनिंदा डोमेन में सर्वश्रेष्ठ है। उदाहरण के लिए, यादृच्छिक वन 3डी पॉइंट क्लाउड के लिए [[ समर्थन वेक्टर यंत्र |सपोर्ट वेक्टर मशीन]] (एसवीएम) क्लासिफायर से बेहतर प्रदर्शन करते हैं।<ref>{{Cite journal|title = LiDAR और कैमरों का उपयोग करके इनडोर पॉइंट क्लाउड पर विंडो क्षेत्रों की स्वचालित पहचान|last = Zhang & Zakhor|first = Richard & Avideh|date = 2014|journal = VIP Lab Publications|citeseerx = 10.1.1.649.303}}</ref><ref>{{Cite journal |title = Simplified markov random fields for efficient semantic labeling of 3D point clouds|last = Y. Lu and C. Rasmussen|date = 2012|journal = IROS|url=http://nameless.cis.udel.edu/pubs/2012/LR12/yan_iros2012.pdf}}</ref> | |||
==बाइनरी क्लासिफायर का मूल्यांकन== | ==बाइनरी क्लासिफायर का मूल्यांकन== | ||
{{main| | {{main|बाइनरी क्लासिफायर का मूल्यांकन}} | ||
[[Image:binary-classification-labeled.svg|thumb|220px|right|परीक्षण किए गए उदाहरणों के इस सेट में, विभाजक के बचे हुए उदाहरणों की स्थिति का परीक्षण किया जा रहा है; दाहिना आधा भाग नहीं। अंडाकार उन उदाहरणों को सीमित करता है जिन्हें एक परीक्षण एल्गोरिदम स्थिति के रूप में वर्गीकृत करता है। हरे क्षेत्र उन उदाहरणों को उजागर करते हैं जिन्हें परीक्षण एल्गोरिदम ने सही ढंग से वर्गीकृत किया है। लेबल संदर्भित करते हैं: <br /> | [[Image:binary-classification-labeled.svg|thumb|220px|right|परीक्षण किए गए उदाहरणों के इस सेट में, विभाजक के बचे हुए उदाहरणों की स्थिति का परीक्षण किया जा रहा है; दाहिना आधा भाग नहीं। अंडाकार उन उदाहरणों को सीमित करता है जिन्हें एक परीक्षण एल्गोरिदम स्थिति के रूप में वर्गीकृत करता है। हरे क्षेत्र उन उदाहरणों को उजागर करते हैं जिन्हें परीक्षण एल्गोरिदम ने सही ढंग से वर्गीकृत किया है। लेबल संदर्भित करते हैं: <br />TP=सच्चा घनात्मक; टीएन = सच्चा ऋणात्मक; FP=गलत घनात्मक (प्रकार I त्रुटि); एफएन=झूठा ऋणात्मक (प्रकार II त्रुटि); TPआर=सच्ची घनात्मक दर निर्धारित करने के लिए उदाहरणों का सेट; FPआर=झूठी घनात्मक दर निर्धारित करने के लिए उदाहरणों का सेट; पीपीवी=घनात्मक पूर्वानुमानित मूल्य; एनपीवी=ऋणात्मक पूर्वानुमानित मूल्य।]]ऐसे कई मेट्रिक्स हैं जिनका उपयोग किसी क्लासिफायरियर या भविष्यवक्ता के प्रदर्शन को मापने के लिए किया जा सकता है; अलग-अलग लक्ष्यों के कारण अलग-अलग क्षेत्रों में विशिष्ट मेट्रिक्स के लिए अलग-अलग प्राथमिकताएँ होती हैं। चिकित्सा में [[संवेदनशीलता और विशिष्टता]] का प्रायः उपयोग किया जाता है, जबकि सूचना पुनर्प्राप्ति में सटीकता और स्मरण को प्राथमिकता दी जाती है। एक महत्वपूर्ण अंतर उन मेट्रिक्स के बीच है जो इस बात से स्वतंत्र हैं कि जनसंख्या (व्यापकता) में प्रत्येक श्रेणी कितनी बार आती है, और मेट्रिक्स जो व्यापकता पर निर्भर करते हैं - दोनों प्रकार उपयोगी हैं, लेकिन उनके पास बहुत अलग गुण हैं। | ||
किसी विशिष्ट डेटा सेट के वर्गीकरण को देखते हुए, वास्तविक डेटा श्रेणी और निर्दिष्ट श्रेणी के चार बुनियादी संयोजन होते हैं: वास्तविक | किसी विशिष्ट डेटा सेट के वर्गीकरण को देखते हुए, वास्तविक डेटा श्रेणी और निर्दिष्ट श्रेणी के चार बुनियादी संयोजन होते हैं: वास्तविक घनात्मक TP (ट्रू पॉजिटिव/ सही घनात्मक असाइनमेंट), सही ऋणात्मक TN ((ट्रू ऋणात्मक/सही ऋणात्मक असाइनमेंट), गलत घनात्मक FP (गलत घनात्मक असाइनमेंट), और गलत ऋणात्मक FN (फाल्स नेगेटिव/गलत ऋणात्मक असाइनमेंट)। | ||
{| class="wikitable" | {| class="wikitable" | ||
! {{diagonal split header|Actual|Assigned}} | ! {{diagonal split header|Actual|Assigned}} | ||
! | ! टेस्ट आउटकम ''घनात्मक'' | ||
! | ! टेस्ट आउटकम ''ऋणात्मक'' | ||
|- | |- | ||
! | ! स्थिति घनात्मक | ||
| align="center"| | | align="center"| सही ''घनात्मक'' | ||
| align="center"| | | align="center"| गलत ''ऋणात्मक'' | ||
|- | |- | ||
! | ! स्थिति ऋणात्मक | ||
| align="center"| | | align="center"| गलत ''घनात्मक'' | ||
| align="center"| | | align="center"| सही ''ऋणात्मक'' | ||
|} | |} | ||
इन्हें 2×2 [[आकस्मिक तालिका]] में व्यवस्थित किया जा सकता है, जिसमें वास्तविक मूल्य के अनुरूप कॉलम होंगे - स्थिति | इन्हें 2×2 [[आकस्मिक तालिका]] में व्यवस्थित किया जा सकता है, जिसमें वास्तविक मूल्य के अनुरूप कॉलम होंगे - स्थिति घनात्मक या स्थिति ऋणात्मक - और वर्गीकरण मूल्य के अनुरूप रोव - परीक्षण परिणाम घनात्मक या परीक्षण परिणाम ऋणात्मक। | ||
===आठ बुनियादी अनुपात=== | ===आठ बुनियादी अनुपात=== | ||
इस तालिका से आठ बुनियादी अनुपातों की गणना की जा सकती है, जो चार पूरक जोड़े (प्रत्येक जोड़े का योग 1) में आते हैं। इन्हें चार संख्याओं में से प्रत्येक को उसकी | इस तालिका से आठ बुनियादी अनुपातों की गणना की जा सकती है, जो चार पूरक जोड़े (प्रत्येक जोड़े का योग 1) में आते हैं। इन्हें चार संख्याओं में से प्रत्येक को उसकी रोव या कॉलम के योग से विभाजित करके प्राप्त किया जाता है, जिससे आठ संख्याएँ प्राप्त होती हैं, जिन्हें सामान्य रूप से वास्तविक घनात्मक रोव अनुपात या गलत ऋणात्मक कॉलम अनुपात के रूप में संदर्भित किया जा सकता है। | ||
इस प्रकार | इस प्रकार कॉलम अनुपात के दो जोड़े और रोव अनुपात के दो जोड़े हैं, और प्रत्येक जोड़े में से एक अनुपात चुनकर कोई इन्हें चार संख्याओं के साथ सारांशित कर सकता है - अन्य चार संख्याएँ पूरक हैं। | ||
रोव के अनुपात हैं: | |||
* | *ट्रू पॉजिटिव रेट (TPR) = (TP/(TP+FN)), उर्फ [[संवेदनशीलता (परीक्षण)]] या रिकॉल ([[सूचना]] पुनर्प्राप्ति)। ये ''स्थिति वाली जनसंख्या'' का अनुपात है जिसके लिए परीक्षण सही है। | ||
** | **फाल्स नेगेटिव रेट (FNR) के पूरक के साथ = (FN/(TP+FN)) | ||
* | *ट्रू पॉजिटिव रेट (TNR) = (TN/(TN+FP), उर्फ [[विशिष्टता (परीक्षण)]] (SPC), | ||
**पूरक [[झूठी सकारात्मक दर]] ( | **पूरक [[झूठी सकारात्मक दर|फाल्स पॉजिटिव रेट]] (FPR) = (FP/(TN+FP)) के साथ, जिसे व्यापकता से स्वतंत्र भी कहा जाता है | ||
कॉलम के अनुपात हैं: | |||
*[[सकारात्मक पूर्वानुमानित मूल्य]] ( | *पॉजिटिव प्रेडिक्टिव वैल्यू ([[सकारात्मक पूर्वानुमानित मूल्य|घनात्मक पूर्वानुमानित मूल्य]]) (PPV, उर्फ [[परिशुद्धता (सूचना पुनर्प्राप्ति)]]) (TP/(TP+FP))। ये ''किसी दिए गए परीक्षा परिणाम वाली जनसंख्या'' का अनुपात है जिसके लिए परीक्षण सही है। | ||
**[[झूठी खोज दर]] ( | **[[झूठी खोज दर|फॉल्स डिस्कवरी रेट]] (FDR) (FP/(TP+FP)) के पूरक के साथ | ||
* | *नेगेटिव प्रेडिक्टिव वैल्यू (ऋणात्मक पूर्वानुमानित मान) (NPV) (TN/(TN+FN))) | ||
**[[झूठी चूक दर]] (FOR) (FN/(TN+FN)) के पूरक के साथ, जिसे व्यापकता पर निर्भरता भी कहा जाता है। | **[[झूठी चूक दर|फॉल्स ओमिशन रेट]] (FOR) (FN/(TN+FN)) के पूरक के साथ, जिसे व्यापकता पर निर्भरता भी कहा जाता है। | ||
नैदानिक परीक्षण में, उपयोग किए जाने वाले मुख्य अनुपात वास्तविक | नैदानिक परीक्षण में, उपयोग किए जाने वाले मुख्य अनुपात वास्तविक कॉलम अनुपात हैं - [[वास्तविक सकारात्मक दर|वास्तविक घनात्मक दर]] और [[वास्तविक नकारात्मक दर|वास्तविक ऋणात्मक दर]] - जहां उन्हें संवेदनशीलता और विशिष्टता के रूप में जाना जाता है। सूचनात्मक पुनर्प्राप्ति में, मुख्य अनुपात वास्तविक घनात्मक अनुपात (रोव और कॉलम) हैं - घनात्मक पूर्वानुमानित मूल्य और वास्तविक घनात्मक दर - जहां उन्हें सटीकता और रिकॉल के रूप में जाना जाता है। | ||
कोई व्यक्ति अनुपातों की एक पूरक जोड़ी का अनुपात ले सकता है, जिससे नैदानिक परीक्षण में चार संभावना अनुपात (अनुपातों के दो | कोई व्यक्ति अनुपातों की एक पूरक जोड़ी का अनुपात ले सकता है, जिससे नैदानिक परीक्षण में चार संभावना अनुपात (अनुपातों के दो कॉलम अनुपात, अनुपातों के दो रोव अनुपात) प्राप्त होते हैं। यह मुख्य रूप से कॉलम (स्थिति) अनुपात के लिए किया जाता है, जो नैदानिक परीक्षण में संभावना अनुपात उत्पन्न करता है। अनुपातों के इन समूहों में से किसी एक का अनुपात लेने पर अंतिम अनुपात, [[डायग्नोस्टिक ऑड्स अनुपात]] (डीओआर) प्राप्त होता है। इसे सीधे (TP×TN)/(FP×FN) = (TP/FN)/(FP/TN) के रूप में भी परिभाषित किया जा सकता है; इसकी एक उपयोगी व्याख्या है - एक [[विषम अनुपात]] के रूप में - और यह व्यापकता-स्वतंत्र है। | ||
कई अन्य मेट्रिक्स हैं, सबसे सरल सटीकता और परिशुद्धता | कई अन्य मेट्रिक्स हैं, सबसे सरल सटीकता और परिशुद्धता बाइनरी वर्गीकरण या फ्रैक्शन करेक्ट (FC) में, जो सही ढंग से वर्गीकृत किए गए सभी उदाहरणों के अंश को मापता है; फ्रैक्शन इनकरेक्ट (FiC) है। [[एफ-स्कोर|F-स्कोर]] वजन के विकल्प के माध्यम से सटीकता और रिकॉल को एक संख्या में जोड़ता है, जो कि संतुलित F-स्कोर ([[F1 स्कोर]]) के समान होता है। कुछ मेट्रिक्स [[प्रतिगमन गुणांक]] से आते हैं: [[चिह्नितता]] और सूचना, और उनका ज्यामितीय माध्य, [[मैथ्यूज सहसंबंध गुणांक]]। अन्य मेट्रिक्स में यूडेन का जे आँकड़ा, [[अनिश्चितता गुणांक]], फी गुणांक और कोहेन का कप्पा सम्मिलित हैं। | ||
==निरंतर | ==निरंतर मान को बाइनरी में परिवर्तित करना== | ||
ऐसे परीक्षण जिनके परिणाम निरंतर मान वाले होते हैं, जैसे कि अधिकांश [[ब्लड वैल्यू]] , कटऑफ (संदर्भ मान) को परिभाषित करके कृत्रिम रूप से बाइनरी बनाया जा सकता है, परीक्षण के परिणाम को [[सकारात्मक या नकारात्मक परीक्षण|घनात्मक या ऋणात्मक परीक्षण]] के रूप में नामित किया जा सकता है, यह इस बात पर निर्भर करता है कि परिणामी मान इससे अधिक है या कटऑफ से कम है। | |||
ऐसे परीक्षण जिनके परिणाम निरंतर मान वाले होते हैं, जैसे कि अधिकांश | |||
हालाँकि, इस तरह के रूपांतरण से जानकारी का नुकसान होता है, क्योंकि परिणामी बाइनरी वर्गीकरण यह नहीं बताता है कि कोई मान कटऑफ से कितना ऊपर या नीचे है। नतीजतन, कटऑफ के | हालाँकि, इस तरह के रूपांतरण से जानकारी का नुकसान होता है, क्योंकि परिणामी बाइनरी वर्गीकरण यह नहीं बताता है कि कोई मान कटऑफ से कितना ऊपर या नीचे है। नतीजतन, कटऑफ के नज़दीक एक निरंतर मूल्य को बाइनरी में परिवर्तित करते समय, परिणामी घनात्मक पूर्वानुमानित मूल्य या ऋणात्मक पूर्वानुमानित मूल्य सामान्यतः निरंतर मूल्य से सीधे दिए गए पूर्वानुमानित मूल्य से अधिक होता है। ऐसे परिस्थितियो में, परीक्षण के घनात्मक या ऋणात्मक होने का पदनाम अनुचित रूप से उच्च निश्चितता का आभास देता है, जबकि मूल्य वास्तव में अनिश्चितता के अंतराल में होता है। उदाहरण के लिए, [[ह्यूमन कोरिओनिक गोनाडोट्रोपिन]] ([[hCG]]) की मूत्र सांद्रता के निरंतर मूल्य के साथ, एक मूत्र [[गर्भावस्था परीक्षण]] जो [[hCG]] के 52 mlU/ml को मापता है, कटऑफ के रूप में 50 mlU/ml के साथ घनात्मक दिखा सकता है, लेकिन वास्तव में अनिश्चितता के अंतराल में है, जो केवल मूल निरंतर मूल्य जानने से ही स्पष्ट हो सकता है। दूसरी ओर, कटऑफ से बहुत दूर एक परीक्षण परिणाम में सामान्यतः परिणामी घनात्मक या ऋणात्मक पूर्वानुमानित मूल्य होता है जो निरंतर मूल्य से दिए गए पूर्वानुमानित मूल्य से कम होता है। उदाहरण के लिए, 200,000 mlU/ml का मूत्र [[hCG]] मान गर्भावस्था की बहुत अधिक संभावना प्रदान करता है, लेकिन बाइनरी मूल्यों में रूपांतरण के परिणामस्वरूप यह 52 mlU/ml के समान ही घनात्मक दिखता है। | ||
==यह भी देखें== | ==यह भी देखें== | ||
{{Portal|Mathematics}} | {{Portal|Mathematics}} | ||
* बायेसियन अनुमान | * बायेसियन अनुमान के उदाहरण | ||
* वर्गीकरण नियम | * वर्गीकरण नियम | ||
* [[असमंजस का जाल]] | * [[असमंजस का जाल|भ्रम (कन्फूशन) मैट्रिक्स]] | ||
* [[पता लगाने का सिद्धांत]] | * [[पता लगाने का सिद्धांत]] | ||
* [[कर्नेल विधियाँ]] | * [[कर्नेल विधियाँ]] | ||
Line 86: | Line 85: | ||
* [[मल्टी-लेबल वर्गीकरण]] | * [[मल्टी-लेबल वर्गीकरण]] | ||
* एक-वर्ग वर्गीकरण | * एक-वर्ग वर्गीकरण | ||
*अभियोजक | *अभियोजक का भ्रम (प्रासीक्यूटर फलस्य) | ||
* [[प्राप्तकर्ता परिचालन विशेषता]] | * [[प्राप्तकर्ता परिचालन विशेषता]] | ||
* थ्रेसहोल्डिंग (छवि प्रसंस्करण) | * थ्रेसहोल्डिंग (छवि प्रसंस्करण) | ||
*अनिश्चितता गुणांक, उर्फ प्रवीणता | *अनिश्चितता गुणांक, उर्फ प्रवीणता | ||
*[[गुणात्मक संपत्ति]] | *[[गुणात्मक संपत्ति|गुणात्मक गुण]] | ||
* परिशुद्धता और स्मरण (समकक्ष वर्गीकरण स्कीमा) | * परिशुद्धता और स्मरण (समकक्ष वर्गीकरण स्कीमा) | ||
==संदर्भ== | ==संदर्भ== | ||
{{reflist}} | {{reflist}} | ||
== ग्रन्थसूची == | == ग्रन्थसूची == | ||
* [[Nello Cristianini]] and [[John Shawe-Taylor]]. ''An Introduction to Support Vector Machines and other kernel-based learning methods''. Cambridge University Press, 2000. {{ISBN|0-521-78019-5}} ''([https://web.archive.org/web/20180627015707/https://www.support-vector.net/] SVM Book)'' | * [[Nello Cristianini]] and [[John Shawe-Taylor]]. ''An Introduction to Support Vector Machines and other kernel-based learning methods''. Cambridge University Press, 2000. {{ISBN|0-521-78019-5}} ''([https://web.archive.org/web/20180627015707/https://www.support-vector.net/] SVM Book)'' | ||
Line 102: | Line 99: | ||
* Bernhard Schölkopf and A. J. Smola: ''Learning with Kernels''. MIT Press, Cambridge, Massachusetts, 2002. {{ISBN|0-262-19475-9}} | * Bernhard Schölkopf and A. J. Smola: ''Learning with Kernels''. MIT Press, Cambridge, Massachusetts, 2002. {{ISBN|0-262-19475-9}} | ||
[[Category:Articles with hatnote templates targeting a nonexistent page]] | |||
[[Category: | |||
[[Category:Created On 21/07/2023]] | [[Category:Created On 21/07/2023]] | ||
[[Category:Machine Translated Page]] | |||
[[Category:Pages with empty portal template]] | |||
[[Category:Pages with script errors]] | |||
[[Category:Portal templates with redlinked portals]] | |||
[[Category:Templates Vigyan Ready]] | |||
[[Category:यंत्र अधिगम]] | |||
[[Category:सांख्यिकीय वर्गीकरण]] |
Latest revision as of 17:18, 8 August 2023
बाइनरी वर्गीकरण एक वर्गीकरण नियम के आधार पर एक समुच्चय (गणित) के तत्वों को दो समूहों (प्रत्येक को वर्ग कहा जाता है) में सांख्यिकीय वर्गीकरण का कार्य है। विशिष्ट द्विआधारी वर्गीकरण समस्याओं में सम्मिलित हैं:
- यह निर्धारित करने के लिए चिकित्सा परीक्षण कि मरीज को कोई बीमारी है या नहीं;
- उद्योग में गुणवत्ता नियंत्रण, यह तय करना कि क्या कोई विनिर्देश पूरा किया गया है;
- सूचना पुनर्प्राप्ति में, यह तय करना कि कोई पृष्ठ खोज के परिणाम सेट में होना चाहिए या नहीं।
बाइनरी वर्गीकरण एक व्यावहारिक स्थिति पर लागू होने वाला द्विभाजन है। कई व्यावहारिक बाइनरी वर्गीकरण समस्याओं में, दोनों समूह सममित नहीं हैं, और समग्र सटीकता के बजाय, विभिन्न प्रकार, और प्रकार, त्रुटियों का सापेक्ष अनुपात रुचि है। उदाहरण के लिए, चिकित्सा परीक्षण में, किसी बीमारी का तब पता लगाना जब वह उपस्थित न हो (गलत घनात्मक और गलत ऋणात्मक#गलत घनात्मक त्रुटि) किसी बीमारी के उपस्थित होने पर उसका पता न लगाना (गलत घनात्मक और गलत घनात्मक त्रुटि) से अलग माना जाता है। फाल्स ऋणात्मक#गलत ऋणात्मक त्रुटि)।
सांख्यिकीय बाइनरी वर्गीकरण
सांख्यिकीय वर्गीकरण यंत्र अधिगम में अध्ययन की जाने वाली एक समस्या है। यह एक प्रकार की पर्यवेक्षित शिक्षा है, मशीन लर्निंग की एक विधि जहां श्रेणियां पूर्वनिर्धारित होती हैं, और नई संभाव्य टिप्पणियों को उक्त श्रेणियों में वर्गीकृत करने के लिए उपयोग किया जाता है। जब केवल दो श्रेणियां होती हैं तो समस्या को सांख्यिकीय बाइनरी वर्गीकरण के रूप में जाना जाता है।
बाइनरी वर्गीकरण के लिए सामान्यतः उपयोग की जाने वाली कुछ विधियाँ हैं:
- डिसिशन ट्री
- रैंडम फॉरेस्ट (यादृच्छिक वन)
- बायेसियन नेटवर्क
- सपोर्ट वेक्टर मशीन
तर्कगणित प्रतिगमन (लोगिस्टिक रिग्रेशन)
अवलोकनों की संख्या, फ़ीचर वेक्टर की आयामीता, डेटा में शोर और कई अन्य कारकों के आधार पर प्रत्येक क्लासिफायर केवल एक चुनिंदा डोमेन में सर्वश्रेष्ठ है। उदाहरण के लिए, यादृच्छिक वन 3डी पॉइंट क्लाउड के लिए सपोर्ट वेक्टर मशीन (एसवीएम) क्लासिफायर से बेहतर प्रदर्शन करते हैं।[1][2]
बाइनरी क्लासिफायर का मूल्यांकन
ऐसे कई मेट्रिक्स हैं जिनका उपयोग किसी क्लासिफायरियर या भविष्यवक्ता के प्रदर्शन को मापने के लिए किया जा सकता है; अलग-अलग लक्ष्यों के कारण अलग-अलग क्षेत्रों में विशिष्ट मेट्रिक्स के लिए अलग-अलग प्राथमिकताएँ होती हैं। चिकित्सा में संवेदनशीलता और विशिष्टता का प्रायः उपयोग किया जाता है, जबकि सूचना पुनर्प्राप्ति में सटीकता और स्मरण को प्राथमिकता दी जाती है। एक महत्वपूर्ण अंतर उन मेट्रिक्स के बीच है जो इस बात से स्वतंत्र हैं कि जनसंख्या (व्यापकता) में प्रत्येक श्रेणी कितनी बार आती है, और मेट्रिक्स जो व्यापकता पर निर्भर करते हैं - दोनों प्रकार उपयोगी हैं, लेकिन उनके पास बहुत अलग गुण हैं।
किसी विशिष्ट डेटा सेट के वर्गीकरण को देखते हुए, वास्तविक डेटा श्रेणी और निर्दिष्ट श्रेणी के चार बुनियादी संयोजन होते हैं: वास्तविक घनात्मक TP (ट्रू पॉजिटिव/ सही घनात्मक असाइनमेंट), सही ऋणात्मक TN ((ट्रू ऋणात्मक/सही ऋणात्मक असाइनमेंट), गलत घनात्मक FP (गलत घनात्मक असाइनमेंट), और गलत ऋणात्मक FN (फाल्स नेगेटिव/गलत ऋणात्मक असाइनमेंट)।
Assigned Actual
|
टेस्ट आउटकम घनात्मक | टेस्ट आउटकम ऋणात्मक |
---|---|---|
स्थिति घनात्मक | सही घनात्मक | गलत ऋणात्मक |
स्थिति ऋणात्मक | गलत घनात्मक | सही ऋणात्मक |
इन्हें 2×2 आकस्मिक तालिका में व्यवस्थित किया जा सकता है, जिसमें वास्तविक मूल्य के अनुरूप कॉलम होंगे - स्थिति घनात्मक या स्थिति ऋणात्मक - और वर्गीकरण मूल्य के अनुरूप रोव - परीक्षण परिणाम घनात्मक या परीक्षण परिणाम ऋणात्मक।
आठ बुनियादी अनुपात
इस तालिका से आठ बुनियादी अनुपातों की गणना की जा सकती है, जो चार पूरक जोड़े (प्रत्येक जोड़े का योग 1) में आते हैं। इन्हें चार संख्याओं में से प्रत्येक को उसकी रोव या कॉलम के योग से विभाजित करके प्राप्त किया जाता है, जिससे आठ संख्याएँ प्राप्त होती हैं, जिन्हें सामान्य रूप से वास्तविक घनात्मक रोव अनुपात या गलत ऋणात्मक कॉलम अनुपात के रूप में संदर्भित किया जा सकता है।
इस प्रकार कॉलम अनुपात के दो जोड़े और रोव अनुपात के दो जोड़े हैं, और प्रत्येक जोड़े में से एक अनुपात चुनकर कोई इन्हें चार संख्याओं के साथ सारांशित कर सकता है - अन्य चार संख्याएँ पूरक हैं।
रोव के अनुपात हैं:
- ट्रू पॉजिटिव रेट (TPR) = (TP/(TP+FN)), उर्फ संवेदनशीलता (परीक्षण) या रिकॉल (सूचना पुनर्प्राप्ति)। ये स्थिति वाली जनसंख्या का अनुपात है जिसके लिए परीक्षण सही है।
- फाल्स नेगेटिव रेट (FNR) के पूरक के साथ = (FN/(TP+FN))
- ट्रू पॉजिटिव रेट (TNR) = (TN/(TN+FP), उर्फ विशिष्टता (परीक्षण) (SPC),
- पूरक फाल्स पॉजिटिव रेट (FPR) = (FP/(TN+FP)) के साथ, जिसे व्यापकता से स्वतंत्र भी कहा जाता है
कॉलम के अनुपात हैं:
- पॉजिटिव प्रेडिक्टिव वैल्यू (घनात्मक पूर्वानुमानित मूल्य) (PPV, उर्फ परिशुद्धता (सूचना पुनर्प्राप्ति)) (TP/(TP+FP))। ये किसी दिए गए परीक्षा परिणाम वाली जनसंख्या का अनुपात है जिसके लिए परीक्षण सही है।
- फॉल्स डिस्कवरी रेट (FDR) (FP/(TP+FP)) के पूरक के साथ
- नेगेटिव प्रेडिक्टिव वैल्यू (ऋणात्मक पूर्वानुमानित मान) (NPV) (TN/(TN+FN)))
- फॉल्स ओमिशन रेट (FOR) (FN/(TN+FN)) के पूरक के साथ, जिसे व्यापकता पर निर्भरता भी कहा जाता है।
नैदानिक परीक्षण में, उपयोग किए जाने वाले मुख्य अनुपात वास्तविक कॉलम अनुपात हैं - वास्तविक घनात्मक दर और वास्तविक ऋणात्मक दर - जहां उन्हें संवेदनशीलता और विशिष्टता के रूप में जाना जाता है। सूचनात्मक पुनर्प्राप्ति में, मुख्य अनुपात वास्तविक घनात्मक अनुपात (रोव और कॉलम) हैं - घनात्मक पूर्वानुमानित मूल्य और वास्तविक घनात्मक दर - जहां उन्हें सटीकता और रिकॉल के रूप में जाना जाता है।
कोई व्यक्ति अनुपातों की एक पूरक जोड़ी का अनुपात ले सकता है, जिससे नैदानिक परीक्षण में चार संभावना अनुपात (अनुपातों के दो कॉलम अनुपात, अनुपातों के दो रोव अनुपात) प्राप्त होते हैं। यह मुख्य रूप से कॉलम (स्थिति) अनुपात के लिए किया जाता है, जो नैदानिक परीक्षण में संभावना अनुपात उत्पन्न करता है। अनुपातों के इन समूहों में से किसी एक का अनुपात लेने पर अंतिम अनुपात, डायग्नोस्टिक ऑड्स अनुपात (डीओआर) प्राप्त होता है। इसे सीधे (TP×TN)/(FP×FN) = (TP/FN)/(FP/TN) के रूप में भी परिभाषित किया जा सकता है; इसकी एक उपयोगी व्याख्या है - एक विषम अनुपात के रूप में - और यह व्यापकता-स्वतंत्र है।
कई अन्य मेट्रिक्स हैं, सबसे सरल सटीकता और परिशुद्धता बाइनरी वर्गीकरण या फ्रैक्शन करेक्ट (FC) में, जो सही ढंग से वर्गीकृत किए गए सभी उदाहरणों के अंश को मापता है; फ्रैक्शन इनकरेक्ट (FiC) है। F-स्कोर वजन के विकल्प के माध्यम से सटीकता और रिकॉल को एक संख्या में जोड़ता है, जो कि संतुलित F-स्कोर (F1 स्कोर) के समान होता है। कुछ मेट्रिक्स प्रतिगमन गुणांक से आते हैं: चिह्नितता और सूचना, और उनका ज्यामितीय माध्य, मैथ्यूज सहसंबंध गुणांक। अन्य मेट्रिक्स में यूडेन का जे आँकड़ा, अनिश्चितता गुणांक, फी गुणांक और कोहेन का कप्पा सम्मिलित हैं।
निरंतर मान को बाइनरी में परिवर्तित करना
ऐसे परीक्षण जिनके परिणाम निरंतर मान वाले होते हैं, जैसे कि अधिकांश ब्लड वैल्यू , कटऑफ (संदर्भ मान) को परिभाषित करके कृत्रिम रूप से बाइनरी बनाया जा सकता है, परीक्षण के परिणाम को घनात्मक या ऋणात्मक परीक्षण के रूप में नामित किया जा सकता है, यह इस बात पर निर्भर करता है कि परिणामी मान इससे अधिक है या कटऑफ से कम है।
हालाँकि, इस तरह के रूपांतरण से जानकारी का नुकसान होता है, क्योंकि परिणामी बाइनरी वर्गीकरण यह नहीं बताता है कि कोई मान कटऑफ से कितना ऊपर या नीचे है। नतीजतन, कटऑफ के नज़दीक एक निरंतर मूल्य को बाइनरी में परिवर्तित करते समय, परिणामी घनात्मक पूर्वानुमानित मूल्य या ऋणात्मक पूर्वानुमानित मूल्य सामान्यतः निरंतर मूल्य से सीधे दिए गए पूर्वानुमानित मूल्य से अधिक होता है। ऐसे परिस्थितियो में, परीक्षण के घनात्मक या ऋणात्मक होने का पदनाम अनुचित रूप से उच्च निश्चितता का आभास देता है, जबकि मूल्य वास्तव में अनिश्चितता के अंतराल में होता है। उदाहरण के लिए, ह्यूमन कोरिओनिक गोनाडोट्रोपिन (hCG) की मूत्र सांद्रता के निरंतर मूल्य के साथ, एक मूत्र गर्भावस्था परीक्षण जो hCG के 52 mlU/ml को मापता है, कटऑफ के रूप में 50 mlU/ml के साथ घनात्मक दिखा सकता है, लेकिन वास्तव में अनिश्चितता के अंतराल में है, जो केवल मूल निरंतर मूल्य जानने से ही स्पष्ट हो सकता है। दूसरी ओर, कटऑफ से बहुत दूर एक परीक्षण परिणाम में सामान्यतः परिणामी घनात्मक या ऋणात्मक पूर्वानुमानित मूल्य होता है जो निरंतर मूल्य से दिए गए पूर्वानुमानित मूल्य से कम होता है। उदाहरण के लिए, 200,000 mlU/ml का मूत्र hCG मान गर्भावस्था की बहुत अधिक संभावना प्रदान करता है, लेकिन बाइनरी मूल्यों में रूपांतरण के परिणामस्वरूप यह 52 mlU/ml के समान ही घनात्मक दिखता है।
यह भी देखें
- बायेसियन अनुमान के उदाहरण
- वर्गीकरण नियम
- भ्रम (कन्फूशन) मैट्रिक्स
- पता लगाने का सिद्धांत
- कर्नेल विधियाँ
- बहुवर्ग वर्गीकरण
- मल्टी-लेबल वर्गीकरण
- एक-वर्ग वर्गीकरण
- अभियोजक का भ्रम (प्रासीक्यूटर फलस्य)
- प्राप्तकर्ता परिचालन विशेषता
- थ्रेसहोल्डिंग (छवि प्रसंस्करण)
- अनिश्चितता गुणांक, उर्फ प्रवीणता
- गुणात्मक गुण
- परिशुद्धता और स्मरण (समकक्ष वर्गीकरण स्कीमा)
संदर्भ
- ↑ Zhang & Zakhor, Richard & Avideh (2014). "LiDAR और कैमरों का उपयोग करके इनडोर पॉइंट क्लाउड पर विंडो क्षेत्रों की स्वचालित पहचान". VIP Lab Publications. CiteSeerX 10.1.1.649.303.
- ↑ Y. Lu and C. Rasmussen (2012). "Simplified markov random fields for efficient semantic labeling of 3D point clouds" (PDF). IROS.
ग्रन्थसूची
- Nello Cristianini and John Shawe-Taylor. An Introduction to Support Vector Machines and other kernel-based learning methods. Cambridge University Press, 2000. ISBN 0-521-78019-5 ([1] SVM Book)
- John Shawe-Taylor and Nello Cristianini. Kernel Methods for Pattern Analysis. Cambridge University Press, 2004. ISBN 0-521-81397-2 (Website for the book)
- Bernhard Schölkopf and A. J. Smola: Learning with Kernels. MIT Press, Cambridge, Massachusetts, 2002. ISBN 0-262-19475-9