सटीक और याद
पैटर्न की पहचान में, सूचना पुनर्प्राप्ति, वस्तु का पता लगाने और वर्गीकरण (मशीन लर्निंग), सटीक और रिकॉल प्रदर्शन मेट्रिक्स हैं जो संग्रह, कॉर्पस या नमूना स्थान से प्राप्त डेटा पर लागू होते हैं।
परिशुद्धता (जिसे सकारात्मक भविष्य कहनेवाला मूल्य भी कहा जाता है) पुनर्प्राप्त उदाहरणों के बीच प्रासंगिक उदाहरणों का अंश है, जबकि रिकॉल (जिसे संवेदनशीलता और विशिष्टता के रूप में भी जाना जाता है) प्रासंगिक उदाहरणों का अंश है जो पुनर्प्राप्त किए गए थे। सटीकता और रिकॉल दोनों इसलिए प्रासंगिकता (सूचना पुनर्प्राप्ति) पर आधारित हैं।
डिजिटल फोटोग्राफ में डॉगस (प्रासंगिक तत्व) को पहचानने के लिए एक कंप्यूटर प्रोग्राम पर विचार करें। दस बिल्लियों और बारह कुत्तों वाली एक तस्वीर को संसाधित करने पर, कार्यक्रम आठ कुत्तों की पहचान करता है। कुत्तों के रूप में पहचाने जाने वाले आठ तत्वों में से केवल पांच वास्तव में कुत्ते (सच्चे सकारात्मक) हैं, जबकि अन्य तीन बिल्लियाँ (झूठे सकारात्मक) हैं। सात कुत्तों को छोड़ दिया गया (झूठे नकारात्मक), और सात बिल्लियों को सही ढंग से बाहर रखा गया (वास्तविक नकारात्मक)। कार्यक्रम की सटीकता तब 5/8 (वास्तविक सकारात्मक/चयनित तत्व) होती है जबकि इसकी याद 5/12 (वास्तविक सकारात्मक/प्रासंगिक तत्व) होती है।
जब एक खोज इंजन (कंप्यूटिंग) 30 पृष्ठ लौटाता है, जिनमें से केवल 20 प्रासंगिक होते हैं, जबकि 40 अतिरिक्त प्रासंगिक पृष्ठ वापस करने में विफल रहते हैं, तो इसकी सटीकता 20/30 = 2/3 होती है, जो हमें बताती है कि परिणाम कितने वैध हैं, जबकि इसकी याद 20/60 = 1/3 है, जो हमें बताती है कि परिणाम कितने पूर्ण हैं।
आँकड़ों से एक परिकल्पना-परीक्षण दृष्टिकोण अपनाना, जिसमें, इस मामले में, अशक्त परिकल्पना यह है कि दी गई वस्तु अप्रासंगिक है, अर्थात, कुत्ता नहीं, टाइप I और टाइप II त्रुटियों की अनुपस्थिति (अर्थात पूर्ण विशिष्टता और 100% प्रत्येक की संवेदनशीलता) क्रमशः पूर्ण परिशुद्धता (कोई झूठी सकारात्मक नहीं) और सही याद (कोई झूठी नकारात्मक नहीं) से मेल खाती है।
अधिक आम तौर पर, रिकॉल केवल टाइप II त्रुटि दर का पूरक है, यानी टाइप II त्रुटि दर का एक माइनस। सटीकता प्रकार I त्रुटि दर से संबंधित है, लेकिन थोड़ा अधिक जटिल तरीके से, क्योंकि यह प्रासंगिक के प्रति अप्रासंगिक वस्तु को देखने के पूर्व वितरण पर भी निर्भर करता है।
उपरोक्त बिल्ली और कुत्ते के उदाहरण में 10 कुल बिल्लियों (वास्तविक नकारात्मक) में से 8 − 5 = 3 टाइप I त्रुटियां (गलत सकारात्मक) शामिल हैं, टाइप I त्रुटि दर 3/10 के लिए, और 12 − 5 = 7 टाइप II त्रुटियां, टाइप II त्रुटि दर 7/12 के लिए। परिशुद्धता को गुणवत्ता के माप के रूप में देखा जा सकता है, और मात्रा के माप के रूप में याद किया जा सकता है।
उच्च परिशुद्धता का अर्थ है कि एक एल्गोरिथ्म अप्रासंगिक परिणामों की तुलना में अधिक प्रासंगिक परिणाम देता है, और उच्च रिकॉल का मतलब है कि एक एल्गोरिथ्म अधिकांश प्रासंगिक परिणाम देता है (चाहे अप्रासंगिक भी लौटाए गए हों या नहीं)।
परिचय
सूचना पुनर्प्राप्ति में, उदाहरण दस्तावेज़ हैं और कार्य एक खोज शब्द दिए गए प्रासंगिक दस्तावेज़ों के एक सेट को वापस करना है। रिकॉल किसी खोज द्वारा प्राप्त प्रासंगिक दस्तावेज़ों की संख्या को मौजूदा प्रासंगिक दस्तावेज़ों की कुल संख्या से विभाजित करने पर प्राप्त होने वाली प्रासंगिक दस्तावेज़ों की संख्या है, जबकि सटीकता किसी खोज द्वारा प्राप्त किए गए प्रासंगिक दस्तावेज़ों की संख्या को उस खोज द्वारा प्राप्त किए गए दस्तावेज़ों की कुल संख्या से विभाजित करने पर प्राप्त होने वाली संख्या है।
एक वर्गीकरण (मशीन लर्निंग) कार्य में, एक वर्ग के लिए सटीकता सही सकारात्मक की संख्या है (अर्थात सकारात्मक वर्ग से संबंधित के रूप में सही ढंग से लेबल की गई वस्तुओं की संख्या) को सकारात्मक वर्ग से संबंधित तत्वों की कुल संख्या से विभाजित किया जाता है ( यानी वास्तविक सकारात्मकता और टाइप I और टाइप II त्रुटियों का योग, जो आइटम गलत तरीके से वर्ग से संबंधित हैं)। इस संदर्भ में याद करें कि वास्तव में सकारात्मक वर्ग से संबंधित तत्वों की कुल संख्या से विभाजित वास्तविक सकारात्मक की संख्या के रूप में परिभाषित किया गया है (यानी वास्तविक सकारात्मक और प्रकार I और प्रकार II त्रुटियों का योग, जो आइटम हैं जिन्हें संबंधित के रूप में लेबल नहीं किया गया था सकारात्मक वर्ग के लिए लेकिन होना चाहिए था)।
सूचना पुनर्प्राप्ति में, 1.0 के एक सटीक सटीक स्कोर का अर्थ है कि खोज द्वारा प्राप्त प्रत्येक परिणाम प्रासंगिक था (लेकिन इस बारे में कुछ नहीं कहता है कि क्या सभी प्रासंगिक दस्तावेज़ पुनर्प्राप्त किए गए थे) जबकि 1.0 के एक पूर्ण रिकॉल स्कोर का अर्थ है कि सभी प्रासंगिक दस्तावेज़ खोज द्वारा पुनर्प्राप्त किए गए थे ( लेकिन यह नहीं कहता है कि कितने अप्रासंगिक दस्तावेज़ भी पुनर्प्राप्त किए गए थे)।
अलगाव में उपयोग किए जाने पर प्रेसिजन और रिकॉल विशेष रूप से उपयोगी मेट्रिक्स नहीं होते हैं। उदाहरण के लिए, हर एक आइटम को केवल पुनः प्राप्त करके सही रिकॉल करना संभव है। इसी तरह, अत्यंत संभावित वस्तुओं की केवल बहुत कम संख्या का चयन करके लगभग पूर्ण सटीकता प्राप्त करना संभव है।
एक वर्गीकरण कार्य में, कक्षा सी के लिए 1.0 के एक सटीक स्कोर का अर्थ है कि कक्षा सी से संबंधित प्रत्येक आइटम वास्तव में कक्षा सी से संबंधित है (लेकिन कक्षा सी से उन वस्तुओं की संख्या के बारे में कुछ नहीं कहता है जिन्हें सही ढंग से लेबल नहीं किया गया था) जबकि ए 1.0 को वापस बुलाने का अर्थ है कि कक्षा सी से प्रत्येक वस्तु को कक्षा सी से संबंधित के रूप में लेबल किया गया था (लेकिन यह नहीं कहता है कि अन्य वर्गों की कितनी वस्तुओं को गलत तरीके से कक्षा सी से संबंधित के रूप में भी लेबल किया गया था)।
अक्सर, सटीक और रिकॉल के बीच एक विपरीत संबंध होता है, जहां दूसरे को कम करने की कीमत पर एक को बढ़ाना संभव होता है। ब्रेन सर्जरी ट्रेडऑफ़ का एक उदाहरण है। एक मस्तिष्क सर्जन पर विचार करें जो एक मरीज के मस्तिष्क से कैंसर के ट्यूमर को निकाल रहा है। सर्जन को सभी ट्यूमर कोशिकाओं को हटाने की जरूरत है क्योंकि शेष कैंसर कोशिकाएं ट्यूमर को पुन: उत्पन्न करेंगी। इसके विपरीत, सर्जन को मस्तिष्क की स्वस्थ कोशिकाओं को नहीं निकालना चाहिए क्योंकि इससे रोगी के मस्तिष्क का कार्य बाधित हो सकता है। सर्जन मस्तिष्क के उस क्षेत्र में अधिक उदार हो सकता है जिसे वह हटाता है यह सुनिश्चित करने के लिए कि उसने सभी कैंसर कोशिकाओं को निकाला है। यह निर्णय याद बढ़ाता है लेकिन सटीकता को कम करता है। दूसरी ओर, सर्जन मस्तिष्क की कोशिकाओं में अधिक रूढ़िवादी हो सकता है जिसे वह हटाता है यह सुनिश्चित करने के लिए कि वह केवल कैंसर कोशिकाओं को निकालता है। यह निर्णय सटीकता बढ़ाता है लेकिन रिकॉल को कम करता है। कहने का मतलब यह है कि अधिक याद करने से स्वस्थ कोशिकाओं (नकारात्मक परिणाम) को हटाने की संभावना बढ़ जाती है और सभी कैंसर कोशिकाओं (सकारात्मक परिणाम) को हटाने की संभावना बढ़ जाती है। अधिक सटीकता से स्वस्थ कोशिकाओं (सकारात्मक परिणाम) को हटाने की संभावना कम हो जाती है, लेकिन सभी कैंसर कोशिकाओं (नकारात्मक परिणाम) को हटाने की संभावना भी कम हो जाती है।
आमतौर पर, सटीक और रिकॉल स्कोर की चर्चा अलगाव में नहीं की जाती है। इसके बजाय, या तो एक माप के मूल्यों की तुलना दूसरे माप पर एक निश्चित स्तर के लिए की जाती है (उदाहरण के लिए 0.75 के रिकॉल स्तर पर सटीक) या दोनों को एक ही माप में जोड़ा जाता है। सटीकता और रिकॉल के संयोजन वाले उपायों के उदाहरण हैं #F-measure|F-माप (परिशुद्धता और रिकॉल का भारित अनुकूल माध्य), या मैथ्यूज सहसंबंध गुणांक, जो एक भूमौका-सुधारित वेरिएंट का मीट्रिक माध्य: प्रतिगमन गुणांक सूचितता (DeltaP') और Markedness (DeltaP)।[1][2] सटीकता (द्विआधारी वर्गीकरण) परिशुद्धता और व्युत्क्रम परिशुद्धता (पूर्वाग्रह द्वारा भारित) के भारित अंकगणितीय माध्य के साथ-साथ रिकॉल और व्युत्क्रम रिकॉल (प्रचलन द्वारा भारित) का भारित अंकगणितीय माध्य है।[1]व्युत्क्रम परिशुद्धता और व्युत्क्रम रिकॉल केवल व्युत्क्रम समस्या की शुद्धता और स्मरण है जहां सकारात्मक और नकारात्मक लेबल का आदान-प्रदान किया जाता है (वास्तविक कक्षाओं और भविष्यवाणी लेबल दोनों के लिए)। रिकॉल और इनवर्स रिकॉल, या समकक्ष रूप से सही सकारात्मक दर और झूठी सकारात्मक दर, अक्सर एक दूसरे के खिलाफ रिसीवर ऑपरेटिंग विशेषता घटता के रूप में प्लॉट किए जाते हैं और ऑपरेटिंग पॉइंट ट्रेडऑफ़ का पता लगाने के लिए एक सैद्धांतिक तंत्र प्रदान करते हैं। सूचना पुनर्प्राप्ति के बाहर, रिकॉल, सटीक और एफ-माप के आवेदन को त्रुटिपूर्ण माना जाता है क्योंकि वे आकस्मिक तालिका के वास्तविक नकारात्मक सेल की उपेक्षा करते हैं, और भविष्यवाणियों को पूर्वाग्रहित करके आसानी से हेरफेर किया जाता है।[1] पहली समस्या सटीकता (द्विआधारी वर्गीकरण) का उपयोग करके 'हल' की जाती है और दूसरी समस्या मौका घटक को छूट देकर और कोहेन के कप्पा को फिर से सामान्य करके 'हल' की जाती है, लेकिन यह अब ग्राफिक रूप से ट्रेडऑफ़ का पता लगाने का अवसर नहीं देता है। हालाँकि, सूचनात्मकता और चिह्नितता कप्पा की तरह रिकॉल और प्रेसिजन के पुनर्सामान्यीकरण हैं,[3] और उनका ज्यामितीय माध्य मैथ्यू सहसंबंध गुणांक इस प्रकार एक विवादित एफ-माप की तरह कार्य करता है।
परिभाषा (सूचना पुनर्प्राप्ति संदर्भ)
सूचना पुनर्प्राप्ति संदर्भों में, सटीक और रिकॉल को पुनर्प्राप्त दस्तावेजों के एक सेट के संदर्भ में परिभाषित किया गया है (उदाहरण के लिए एक वेब खोज इंजन द्वारा एक क्वेरी के लिए तैयार किए गए दस्तावेजों की सूची) और प्रासंगिक दस्तावेजों का एक सेट (जैसे इंटरनेट पर सभी दस्तावेजों की सूची) जो एक निश्चित विषय के लिए प्रासंगिक हैं), cf. प्रासंगिकता।[4]
प्रेसिजन
सूचना पुनर्प्राप्ति के क्षेत्र में, सटीकता पुनर्प्राप्त दस्तावेज़ों का अंश है जो क्वेरी के लिए प्रासंगिकता (सूचना पुनर्प्राप्ति) हैं:
परिशुद्धता सभी पुनर्प्राप्त दस्तावेजों को ध्यान में रखती है, लेकिन इसका मूल्यांकन किसी दिए गए कट-ऑफ रैंक पर भी किया जा सकता है, केवल सिस्टम द्वारा दिए गए शीर्ष परिणामों पर विचार किया जा सकता है। इस माप को कहा जाता है मूल्यांकन उपाय (सूचना पुनर्प्राप्ति)#शुद्धता k पर या मूल्यांकन उपाय (सूचना पुनर्प्राप्ति)#परिशुद्धता k|P@n पर।
रिकॉल के साथ परिशुद्धता का उपयोग किया जाता है, सभी प्रासंगिक दस्तावेजों का प्रतिशत जो खोज द्वारा लौटाया जाता है। F1 Score|F में कभी-कभी दो उपायों का एक साथ उपयोग किया जाता है1 किसी सिस्टम के लिए एकल माप प्रदान करने के लिए स्कोर (या f-माप)।
ध्यान दें कि सूचना पुनर्प्राप्ति के क्षेत्र में सटीकता का अर्थ और उपयोग विज्ञान और प्रौद्योगिकी की अन्य शाखाओं के भीतर सटीकता और सटीकता की परिभाषा से भिन्न है।
स्मरण
सूचना पुनर्प्राप्ति में, रिकॉल प्रासंगिक दस्तावेजों का वह अंश है जिसे सफलतापूर्वक पुनर्प्राप्त किया जाता है।
बाइनरी वर्गीकरण में, रिकॉल को संवेदनशीलता और विशिष्टता # संवेदनशीलता कहा जाता है। इसे इस संभावना के रूप में देखा जा सकता है कि क्वेरी द्वारा एक प्रासंगिक दस्तावेज़ को पुनः प्राप्त किया जाता है।
कनेक्शन
सटीक और रिकॉल की व्याख्या (अनुमानित) सशर्त संभावनाओं के रूप में की जा सकती है: प्रेसिजन द्वारा दिया जाता है जबकि रिकॉल द्वारा दिया गया है ,[5] कहाँ अनुमानित वर्ग है और वास्तविक वर्ग है। इसलिए, दोनों मात्राएँ बेयस प्रमेय द्वारा जुड़ी हुई हैं।
परिभाषा (वर्गीकरण संदर्भ)
वर्गीकरण कार्यों के लिए, सच्चे सकारात्मक, सच्चे नकारात्मक, झूठे सकारात्मक और झूठे नकारात्मक शब्द (परिभाषाओं के लिए टाइप I और टाइप II त्रुटियां देखें) विश्वसनीय बाहरी निर्णयों के साथ परीक्षण के तहत क्लासिफायरियर के परिणामों की तुलना करें। शब्द सकारात्मक और नकारात्मक वर्गीकारक की भविष्यवाणी (कभी-कभी अपेक्षा के रूप में जाना जाता है) को संदर्भित करते हैं, और सत्य और गलत शब्द संदर्भित करते हैं कि क्या भविष्यवाणी बाहरी निर्णय (कभी-कभी अवलोकन के रूप में जाना जाता है) से मेल खाती है।
आइए हम कुछ स्थितियों के लिए P धनात्मक दृष्टांतों और N ऋणात्मक दृष्टांतों से एक प्रयोग परिभाषित करें। चार परिणामों को 2×2 आकस्मिक तालिका या भ्रम मैट्रिक्स में निम्नानुसार तैयार किया जा सकता है:
Predicted condition | Sources: [6][7][8][9][10][11][12][13][14] | ||||
Total population = P + N |
Positive (PP) | Negative (PN) | Informedness, bookmaker informedness (BM) = TPR + TNR − 1 |
Prevalence threshold (PT) = | |
Positive (P) | True positive (TP), hit |
False negative (FN), type II error, miss, underestimation |
True positive rate (TPR), recall, sensitivity (SEN), probability of detection, hit rate, power = TP/P = 1 − FNR |
False negative rate (FNR), miss rate = FN/P = 1 − TPR | |
Negative (N) | False positive (FP), type I error, false alarm, overestimation |
True negative (TN), correct rejection |
False positive rate (FPR), probability of false alarm, [[evaluation measures (information retrieval)#Fall-out|fall-out]] = FP/N = 1 − TNR |
True negative rate (TNR), specificity (SPC), selectivity = TN/N = 1 − FPR | |
Prevalence = P/P + N |
Positive predictive value (PPV), precision = TP/PP = 1 − FDR |
False omission rate (FOR) = FN/PN = 1 − NPV |
Positive likelihood ratio (LR+) = TPR/FPR |
Negative likelihood ratio (LR−) = FNR/TNR | |
Accuracy (ACC) = TP + TN/P + N | False discovery rate (FDR) = FP/PP = 1 − PPV |
Negative predictive value (NPV) = TN/PN = 1 − FOR | Markedness (MK), deltaP (Δp) = PPV + NPV − 1 |
[[Diagnostic odds ratio|Diagnostic odds ratio]] (DOR) = LR+/LR− | |
Balanced accuracy (BA) = TPR + TNR/2 | F1 score = 2 PPV × TPR/PPV + TPR = 2 TP/2 TP + FP + FN |
Fowlkes–Mallows index (FM) = | Matthews correlation coefficient (MCC) = |
Threat score (TS), critical success index (CSI), Jaccard index = TP/TP + FN + FP |
Sources: Fawcett (2006),[15] Piryonesi and El-Diraby (2020),[16] Powers (2011),[17] Ting (2011),[18] CAWCR,[19] D. Chicco & G. Jurman (2020, 2021, 2023),[20][21][22] Tharwat (2018).[23] Balayla (2020)[24] |
प्रेसिजन और रिकॉल को तब परिभाषित किया जाता है:[25]
असंतुलित डेटा
एक अन्य मीट्रिक अनुमानित सकारात्मक स्थिति दर (PPCR) है, जो फ़्लैग की गई कुल जनसंख्या के प्रतिशत की पहचान करती है। उदाहरण के लिए, एक खोज इंजन के लिए जो 1,000,000 दस्तावेज़ों में से 30 परिणाम (पुनर्प्राप्त दस्तावेज़) लौटाता है, PPCR 0.003% है।
संभाव्य व्याख्या
कोई सटीकता की व्याख्या भी कर सकता है और अनुपात के रूप में नहीं बल्कि संभावनाओं के अनुमान के रूप में याद कर सकता है:[29]
- सटीकता अनुमानित संभावना है कि पुनर्प्राप्त दस्तावेज़ों के पूल से यादृच्छिक रूप से चयनित दस्तावेज़ प्रासंगिक है।
- रिकॉल अनुमानित संभावना है कि प्रासंगिक दस्तावेजों के पूल से बेतरतीब ढंग से चुने गए दस्तावेज़ को पुनः प्राप्त किया जाता है।
एक और व्याख्या यह है कि सटीकता प्रासंगिक पुनर्प्राप्ति की औसत संभावना है और रिकॉल कई पुनर्प्राप्ति प्रश्नों पर औसत पूर्ण पुनर्प्राप्ति की औसत संभावना है।
एफ-माप
एक उपाय जो सटीक और रिकॉल को जोड़ती है, वह सटीक और रिकॉल का हार्मोनिक मतलब है, पारंपरिक एफ-माप या संतुलित एफ-स्कोर:
यह जनरल का एक विशेष मामला है उपाय (गैर-नकारात्मक वास्तविक मूल्यों के लिए):
एफ-माप वैन रिज्सबर्गेन (1979) द्वारा प्राप्त किया गया था ताकि संलग्न करने वाले उपयोगकर्ता के संबंध में पुनर्प्राप्ति की प्रभावशीलता को मापता है बार-बार याद करने और सटीकता को महत्व देने के लिए। यह वैन रिज्सबर्गेन प्रभावशीलता माप पर आधारित है , दूसरा शब्द वजन के साथ सटीकता और रिकॉल का भारित हार्मोनिक माध्य है . उनका सम्बन्ध है कहाँ .
लक्ष्यों के रूप में सीमाएं
सूचना पुनर्प्राप्ति प्रणाली के प्रदर्शन मीट्रिक के लिए अन्य पैरामीटर और रणनीतियाँ हैं, जैसे कि आरओसी वक्र (एयूसी) के तहत क्षेत्र।[30]
यह भी देखें
- अनिश्चितता गुणांक, जिसे प्रवीणता भी कहा जाता है
- संवेदनशीलता और विशिष्टता
- असमंजस का जाल
संदर्भ
- ↑ 1.0 1.1 1.2 1.3 Powers, David M W (2011). "Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness & Correlation" (PDF). Journal of Machine Learning Technologies. 2 (1): 37–63. Archived from the original (PDF) on 2019-11-14.
- ↑ Perruchet, P.; Peereman, R. (2004). "शब्दांश प्रसंस्करण में वितरण संबंधी जानकारी का शोषण". J. Neurolinguistics. 17 (2–3): 97–119. doi:10.1016/s0911-6044(03)00059-9. S2CID 17104364.
- ↑ Powers, David M. W. (2012). "कप्पा के साथ समस्या". Conference of the European Chapter of the Association for Computational Linguistics (EACL2012) Joint ROBUS-UNSUP Workshop.
- ↑ * Kent, Allen; Berry, Madeline M.; Luehrs, Jr., Fred U.; Perry, J.W. (1955). "Machine literature searching VIII. Operational criteria for designing information retrieval systems". American Documentation. 6 (2): 93. doi:10.1002/asi.5090060209.
- ↑ Information Retrieval Models, Thomas Roelleke, ISBN 9783031023286, page 76, https://www.google.de/books/edition/Information_Retrieval_Models/YX9yEAAAQBAJ?hl=de&gbpv=1&pg=PA76&printsec=frontcover
- ↑ Balayla, Jacques (2020). "Prevalence threshold (ϕe) and the geometry of screening curves". PLoS One. 15 (10). doi:10.1371/journal.pone.0240215.
- ↑ Fawcett, Tom (2006). "An Introduction to ROC Analysis" (PDF). Pattern Recognition Letters. 27 (8): 861–874. doi:10.1016/j.patrec.2005.10.010.
- ↑ Piryonesi S. Madeh; El-Diraby Tamer E. (2020-03-01). "Data Analytics in Asset Management: Cost-Effective Prediction of the Pavement Condition Index". Journal of Infrastructure Systems. 26 (1): 04019036. doi:10.1061/(ASCE)IS.1943-555X.0000512.
- ↑ Powers, David M. W. (2011). "Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness & Correlation". Journal of Machine Learning Technologies. 2 (1): 37–63.
- ↑ Ting, Kai Ming (2011). Sammut, Claude; Webb, Geoffrey I. (eds.). Encyclopedia of machine learning. Springer. doi:10.1007/978-0-387-30164-8. ISBN 978-0-387-30164-8.
- ↑ Brooks, Harold; Brown, Barb; Ebert, Beth; Ferro, Chris; Jolliffe, Ian; Koh, Tieh-Yong; Roebber, Paul; Stephenson, David (2015-01-26). "WWRP/WGNE Joint Working Group on Forecast Verification Research". Collaboration for Australian Weather and Climate Research. World Meteorological Organisation. Retrieved 2019-07-17.
- ↑ Chicco D, Jurman G (January 2020). "The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation". BMC Genomics. 21 (1): 6-1–6-13. doi:10.1186/s12864-019-6413-7. PMC 6941312. PMID 31898477.
- ↑ Chicco D, Toetsch N, Jurman G (February 2021). "The Matthews correlation coefficient (MCC) is more reliable than balanced accuracy, bookmaker informedness, and markedness in two-class confusion matrix evaluation". BioData Mining. 14 (13): 1-22. doi:10.1186/s13040-021-00244-z. PMC 7863449. PMID 33541410.
- ↑ Tharwat A. (August 2018). "Classification assessment methods". Applied Computing and Informatics. doi:10.1016/j.aci.2018.08.003.
- ↑ Fawcett, Tom (2006). "An Introduction to ROC Analysis" (PDF). Pattern Recognition Letters. 27 (8): 861–874. doi:10.1016/j.patrec.2005.10.010.
- ↑ Piryonesi S. Madeh; El-Diraby Tamer E. (2020-03-01). "Data Analytics in Asset Management: Cost-Effective Prediction of the Pavement Condition Index". Journal of Infrastructure Systems. 26 (1): 04019036. doi:10.1061/(ASCE)IS.1943-555X.0000512.
- ↑ Powers, David M. W. (2011). "Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness & Correlation". Journal of Machine Learning Technologies. 2 (1): 37–63.
- ↑ Ting, Kai Ming (2011). Sammut, Claude; Webb, Geoffrey I. (eds.). Encyclopedia of machine learning. Springer. doi:10.1007/978-0-387-30164-8. ISBN 978-0-387-30164-8.
- ↑ Brooks, Harold; Brown, Barb; Ebert, Beth; Ferro, Chris; Jolliffe, Ian; Koh, Tieh-Yong; Roebber, Paul; Stephenson, David (2015-01-26). "WWRP/WGNE Joint Working Group on Forecast Verification Research". Collaboration for Australian Weather and Climate Research. World Meteorological Organisation. Retrieved 2019-07-17.
- ↑ Chicco D.; Jurman G. (January 2020). "The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation". BMC Genomics. 21 (1): 6-1–6-13. doi:10.1186/s12864-019-6413-7. PMC 6941312. PMID 31898477.
- ↑ Chicco D.; Toetsch N.; Jurman G. (February 2021). "The Matthews correlation coefficient (MCC) is more reliable than balanced accuracy, bookmaker informedness, and markedness in two-class confusion matrix evaluation". BioData Mining. 14 (13): 1-22. doi:10.1186/s13040-021-00244-z. PMC 7863449. PMID 33541410.
- ↑ Chicco D.; Jurman G. (2023). "The Matthews correlation coefficient (MCC) should replace the ROC AUC as the standard metric for assessing binary classification". BioData Mining. 16 (1). doi:10.1186/s13040-023-00322-4. PMC 9938573.
- ↑ Tharwat A. (August 2018). "Classification assessment methods". Applied Computing and Informatics. doi:10.1016/j.aci.2018.08.003.
- ↑ Balayla, Jacques (2020). "Prevalence threshold (ϕe) and the geometry of screening curves". PLoS One. 15 (10). doi:10.1371/journal.pone.0240215.
- ↑ 25.0 25.1 Olson, David L.; and Delen, Dursun (2008); Advanced Data Mining Techniques, Springer, 1st edition (February 1, 2008), page 138, ISBN 3-540-76916-1
- ↑ Mower, Jeffrey P. (2005-04-12). "PREP-Mt: predictive RNA editor for plant mitochondrial genes". BMC Bioinformatics. 6: 96. doi:10.1186/1471-2105-6-96. ISSN 1471-2105. PMC 1087475. PMID 15826309.
- ↑ Saito, Takaya; Rehmsmeier, Marc (2015-03-04). Brock, Guy (ed.). "असंतुलित डेटासेट पर बाइनरी क्लासिफायर का मूल्यांकन करते समय प्रेसिजन-रिकॉल प्लॉट आरओसी प्लॉट की तुलना में अधिक जानकारीपूर्ण है". PLOS ONE (in English). 10 (3): e0118432. Bibcode:2015PLoSO..1018432S. doi:10.1371/journal.pone.0118432. ISSN 1932-6203. PMC 4349800. PMID 25738806.
- Suzanne Ekelund (March 2017). "Precision-recall curves – what are they and how are they used?". Acute Care Testing.
- ↑ Tripicchio, Paolo; Camacho-Gonzalez, Gerardo; D'Avella, Salvatore (2020). "Welding defect detection: coping with artifacts in the production line". The International Journal of Advanced Manufacturing Technology. 111 (5): 1659–1669. doi:10.1007/s00170-020-06146-4. S2CID 225136860.
- ↑ Fatih Cakir, Kun He, Xide Xia, Brian Kulis, Stan Sclaroff, Deep Metric Learning to Rank, In Proc. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019.
- ↑ Zygmunt Zając. What you wanted to know about AUC. http://fastml.com/what-you-wanted-to-know-about-auc/
- Baeza-Yates, Ricardo; Ribeiro-Neto, Berthier (1999). Modern Information Retrieval. New York, NY: ACM Press, Addison-Wesley, Seiten 75 ff. ISBN 0-201-39829-X
- Hjørland, Birger (2010); The foundation of the concept of relevance, Journal of the American Society for Information Science and Technology, 61(2), 217-237
- Makhoul, John; Kubala, Francis; Schwartz, Richard; and Weischedel, Ralph (1999); Performance measures for information extraction, in Proceedings of DARPA Broadcast News Workshop, Herndon, VA, February 1999
- van Rijsbergen, Cornelis Joost "Keith" (1979); Information Retrieval, London, GB; Boston, MA: Butterworth, 2nd Edition, ISBN 0-408-70929-4