द्विआधारी वर्गीकरण

From Vigyanwiki
Revision as of 09:59, 21 July 2023 by alpha>Indicwiki (Created page with "{{More citations needed|date=May 2011}} बाइनरी वर्गीकरण एक वर्गीकरण नियम के आधार पर एक से...")
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

बाइनरी वर्गीकरण एक वर्गीकरण नियम के आधार पर एक सेट (गणित) के तत्वों को दो समूहों (प्रत्येक को वर्ग कहा जाता है) में सांख्यिकीय वर्गीकरण का कार्य है। विशिष्ट द्विआधारी वर्गीकरण समस्याओं में शामिल हैं:

  • यह निर्धारित करने के लिए चिकित्सा परीक्षण कि मरीज को कोई बीमारी है या नहीं;
  • उद्योग में गुणवत्ता नियंत्रण, यह तय करना कि क्या कोई विनिर्देश पूरा किया गया है;
  • सूचना पुनर्प्राप्ति में, यह तय करना कि कोई पृष्ठ खोज के परिणाम सेट में होना चाहिए या नहीं।

बाइनरी वर्गीकरण एक व्यावहारिक स्थिति पर लागू होने वाला द्विभाजन है। कई व्यावहारिक बाइनरी वर्गीकरण समस्याओं में, दोनों समूह सममित नहीं हैं, और समग्र सटीकता के बजाय, विभिन्न प्रकार I और प्रकार II त्रुटियों का सापेक्ष अनुपात रुचि का है। उदाहरण के लिए, चिकित्सा परीक्षण में, किसी बीमारी का तब पता लगाना जब वह मौजूद न हो (गलत सकारात्मक और गलत नकारात्मक#गलत सकारात्मक त्रुटि) किसी बीमारी के मौजूद होने पर उसका पता न लगाना (गलत सकारात्मक और गलत सकारात्मक त्रुटि) से अलग माना जाता है। झूठी नकारात्मक#गलत नकारात्मक त्रुटि)।

सांख्यिकीय बाइनरी वर्गीकरण

सांख्यिकीय वर्गीकरण यंत्र अधिगम में अध्ययन की जाने वाली एक समस्या है। यह एक प्रकार की पर्यवेक्षित शिक्षा है, मशीन लर्निंग की एक विधि जहां श्रेणियां पूर्वनिर्धारित होती हैं, और नई संभाव्य टिप्पणियों को उक्त श्रेणियों में वर्गीकृत करने के लिए उपयोग किया जाता है। जब केवल दो श्रेणियां होती हैं तो समस्या को सांख्यिकीय बाइनरी वर्गीकरण के रूप में जाना जाता है।

बाइनरी वर्गीकरण के लिए आमतौर पर उपयोग की जाने वाली कुछ विधियाँ हैं:

रैखिक आनुवंशिक प्रोग्रामिंग

अवलोकनों की संख्या, फ़ीचर वेक्टर की आयामीता, डेटा में शोर और कई अन्य कारकों के आधार पर प्रत्येक क्लासिफायर केवल एक चुनिंदा डोमेन में सर्वश्रेष्ठ है। उदाहरण के लिए, यादृच्छिक वन 3डी पॉइंट क्लाउड के लिए समर्थन वेक्टर यंत्र क्लासिफायर से बेहतर प्रदर्शन करते हैं।[1][2]


बाइनरी क्लासिफायर का मूल्यांकन

परीक्षण किए गए उदाहरणों के इस सेट में, विभाजक के बचे हुए उदाहरणों की स्थिति का परीक्षण किया जा रहा है; दाहिना आधा भाग नहीं। अंडाकार उन उदाहरणों को सीमित करता है जिन्हें एक परीक्षण एल्गोरिदम स्थिति के रूप में वर्गीकृत करता है। हरे क्षेत्र उन उदाहरणों को उजागर करते हैं जिन्हें परीक्षण एल्गोरिदम ने सही ढंग से वर्गीकृत किया है। लेबल संदर्भित करते हैं:
टीपी=सच्चा सकारात्मक; टीएन = सच्चा नकारात्मक; एफपी=गलत सकारात्मक (प्रकार I त्रुटि); एफएन=झूठा नकारात्मक (प्रकार II त्रुटि); टीपीआर=सच्ची सकारात्मक दर निर्धारित करने के लिए उदाहरणों का सेट; एफपीआर=झूठी सकारात्मक दर निर्धारित करने के लिए उदाहरणों का सेट; पीपीवी=सकारात्मक पूर्वानुमानित मूल्य; एनपीवी=नकारात्मक पूर्वानुमानित मूल्य।

ऐसे कई मेट्रिक्स हैं जिनका उपयोग किसी क्लासिफायरियर या भविष्यवक्ता के प्रदर्शन को मापने के लिए किया जा सकता है; अलग-अलग लक्ष्यों के कारण अलग-अलग क्षेत्रों में विशिष्ट मेट्रिक्स के लिए अलग-अलग प्राथमिकताएँ होती हैं। चिकित्सा में संवेदनशीलता और विशिष्टता का अक्सर उपयोग किया जाता है, जबकि सूचना पुनर्प्राप्ति में सटीकता और स्मरण को प्राथमिकता दी जाती है। एक महत्वपूर्ण अंतर उन मेट्रिक्स के बीच है जो इस बात से स्वतंत्र हैं कि जनसंख्या (व्यापकता) में प्रत्येक श्रेणी कितनी बार आती है, और मेट्रिक्स जो व्यापकता पर निर्भर करते हैं - दोनों प्रकार उपयोगी हैं, लेकिन उनके पास बहुत अलग गुण हैं।

किसी विशिष्ट डेटा सेट के वर्गीकरण को देखते हुए, वास्तविक डेटा श्रेणी और निर्दिष्ट श्रेणी के चार बुनियादी संयोजन होते हैं: वास्तविक सकारात्मक टीपी (सही सकारात्मक असाइनमेंट), सही नकारात्मक टीएन (सही नकारात्मक असाइनमेंट), गलत सकारात्मक एफपी (गलत सकारात्मक असाइनमेंट), और गलत नकारात्मक एफएन (गलत नकारात्मक असाइनमेंट)।

Assigned
Actual
Test outcome positive Test outcome negative
Condition positive True positive False negative
Condition negative False positive True negative

इन्हें 2×2 आकस्मिक तालिका में व्यवस्थित किया जा सकता है, जिसमें वास्तविक मूल्य के अनुरूप कॉलम होंगे - स्थिति सकारात्मक या स्थिति नकारात्मक - और वर्गीकरण मूल्य के अनुरूप पंक्तियाँ - परीक्षण परिणाम सकारात्मक या परीक्षण परिणाम नकारात्मक।

आठ बुनियादी अनुपात

इस तालिका से आठ बुनियादी अनुपातों की गणना की जा सकती है, जो चार पूरक जोड़े (प्रत्येक जोड़े का योग 1) में आते हैं। इन्हें चार संख्याओं में से प्रत्येक को उसकी पंक्ति या स्तंभ के योग से विभाजित करके प्राप्त किया जाता है, जिससे आठ संख्याएँ प्राप्त होती हैं, जिन्हें सामान्य रूप से वास्तविक सकारात्मक पंक्ति अनुपात या गलत नकारात्मक स्तंभ अनुपात के रूप में संदर्भित किया जा सकता है।

इस प्रकार स्तंभ अनुपात के दो जोड़े और पंक्ति अनुपात के दो जोड़े हैं, और प्रत्येक जोड़े में से एक अनुपात चुनकर कोई इन्हें चार संख्याओं के साथ सारांशित कर सकता है - अन्य चार संख्याएँ पूरक हैं।

पंक्ति अनुपात हैं:

  • सच्ची सकारात्मक दर (टीपीआर) = (टीपी/(टीपी+एफएन)), उर्फ ​​संवेदनशीलता (परीक्षण) या रिकॉल (सूचना पुनर्प्राप्ति)। ये स्थिति वाली जनसंख्या का अनुपात है जिसके लिए परीक्षण सही है।
    • गलत नकारात्मक दर (FNR) के पूरक के साथ = (FN/(TP+FN))
  • सच्ची नकारात्मक दर (टीएनआर) = (टीएन/(टीएन+एफपी), उर्फ ​​विशिष्टता (परीक्षण) (एसपीसी),
    • पूरक झूठी सकारात्मक दर (एफपीआर) = (एफपी/(टीएन+एफपी)) के साथ, जिसे व्यापकता से स्वतंत्र भी कहा जाता है

स्तंभ अनुपात हैं:

नैदानिक ​​​​परीक्षण में, उपयोग किए जाने वाले मुख्य अनुपात वास्तविक स्तंभ अनुपात हैं - वास्तविक सकारात्मक दर और वास्तविक नकारात्मक दर - जहां उन्हें संवेदनशीलता और विशिष्टता के रूप में जाना जाता है। सूचनात्मक पुनर्प्राप्ति में, मुख्य अनुपात वास्तविक सकारात्मक अनुपात (पंक्ति और स्तंभ) हैं - सकारात्मक पूर्वानुमानित मूल्य और वास्तविक सकारात्मक दर - जहां उन्हें सटीकता और रिकॉल के रूप में जाना जाता है।

कोई व्यक्ति अनुपातों की एक पूरक जोड़ी का अनुपात ले सकता है, जिससे नैदानिक ​​​​परीक्षण में चार संभावना अनुपात (अनुपातों के दो स्तंभ अनुपात, अनुपातों के दो पंक्ति अनुपात) प्राप्त होते हैं। यह मुख्य रूप से कॉलम (स्थिति) अनुपात के लिए किया जाता है, जो नैदानिक ​​​​परीक्षण में संभावना अनुपात उत्पन्न करता है। अनुपातों के इन समूहों में से किसी एक का अनुपात लेने पर अंतिम अनुपात, डायग्नोस्टिक ऑड्स अनुपात (डीओआर) प्राप्त होता है। इसे सीधे (टीपी×टीएन)/(एफपी×एफएन) = (टीपी/एफएन)/(एफपी/टीएन) के रूप में भी परिभाषित किया जा सकता है; इसकी एक उपयोगी व्याख्या है - एक विषम अनुपात के रूप में - और यह व्यापकता-स्वतंत्र है।

कई अन्य मेट्रिक्स हैं, सबसे सरल सटीकता और परिशुद्धता#बाइनरी वर्गीकरण या फ्रैक्शन करेक्ट (एफसी) में, जो सही ढंग से वर्गीकृत किए गए सभी उदाहरणों के अंश को मापता है; पूरक भिन्न भिन्न (FiC) है। एफ-स्कोर वजन के विकल्प के माध्यम से सटीकता और रिकॉल को एक संख्या में जोड़ता है, जो कि संतुलित एफ-स्कोर (एफ F1 स्कोर) के समान होता है। कुछ मेट्रिक्स प्रतिगमन गुणांक से आते हैं: चिह्नितता और सूचना, और उनका ज्यामितीय माध्य, मैथ्यूज सहसंबंध गुणांक। अन्य मेट्रिक्स में यूडेन का जे आँकड़ा, अनिश्चितता गुणांक, फी गुणांक और कोहेन का कप्पा शामिल हैं।

निरंतर मानों को बाइनरी में परिवर्तित करना

ऐसे परीक्षण जिनके परिणाम निरंतर मान वाले होते हैं, जैसे कि अधिकांश रक्त मान, कटऑफ (संदर्भ मान) को परिभाषित करके कृत्रिम रूप से बाइनरी बनाया जा सकता है, परीक्षण के परिणाम को सकारात्मक या नकारात्मक परीक्षण के रूप में नामित किया जा सकता है, यह इस बात पर निर्भर करता है कि परिणामी मान इससे अधिक है या कम है। कट जाना।

हालाँकि, इस तरह के रूपांतरण से जानकारी का नुकसान होता है, क्योंकि परिणामी बाइनरी वर्गीकरण यह नहीं बताता है कि कोई मान कटऑफ से कितना ऊपर या नीचे है। नतीजतन, कटऑफ के करीब एक निरंतर मूल्य को बाइनरी में परिवर्तित करते समय, परिणामी सकारात्मक पूर्वानुमानित मूल्य या नकारात्मक पूर्वानुमानित मूल्य आम तौर पर निरंतर मूल्य से सीधे दिए गए पूर्वानुमानित मूल्य से अधिक होता है। ऐसे मामलों में, परीक्षण के सकारात्मक या नकारात्मक होने का पदनाम अनुचित रूप से उच्च निश्चितता का आभास देता है, जबकि मूल्य वास्तव में अनिश्चितता के अंतराल में होता है। उदाहरण के लिए, ह्यूमन कोरिओनिक गोनाडोट्रोपिन की मूत्र सांद्रता के निरंतर मूल्य के साथ, एक मूत्र गर्भावस्था परीक्षण जो एचसीजी के 52 एमआईयू/एमएल को मापता है, कटऑफ के रूप में 50 एमआईयू/एमएल के साथ सकारात्मक दिखा सकता है, लेकिन वास्तव में अनिश्चितता के अंतराल में है, जो केवल मूल निरंतर मूल्य जानने से ही स्पष्ट हो सकता है। दूसरी ओर, कटऑफ से बहुत दूर एक परीक्षण परिणाम में आम तौर पर परिणामी सकारात्मक या नकारात्मक पूर्वानुमानित मूल्य होता है जो निरंतर मूल्य से दिए गए पूर्वानुमानित मूल्य से कम होता है। उदाहरण के लिए, 200,000 एमआईयू/एमएल का मूत्र एचसीजी मान गर्भावस्था की बहुत अधिक संभावना प्रदान करता है, लेकिन बाइनरी मूल्यों में रूपांतरण के परिणामस्वरूप यह 52 एमआईयू/एमएल के समान ही सकारात्मक दिखता है।

यह भी देखें

संदर्भ

  1. Zhang & Zakhor, Richard & Avideh (2014). "LiDAR और कैमरों का उपयोग करके इनडोर पॉइंट क्लाउड पर विंडो क्षेत्रों की स्वचालित पहचान". VIP Lab Publications. CiteSeerX 10.1.1.649.303.
  2. Y. Lu and C. Rasmussen (2012). "Simplified markov random fields for efficient semantic labeling of 3D point clouds" (PDF). IROS.


ग्रन्थसूची