एफ-स्कोर: Difference between revisions

From Vigyanwiki
(Created page with "{{short description|Statistical measure of a test's accuracy}} {{For|the significance test|F-test}} thumb|350px|सटीक और यादद...")
 
No edit summary
Line 1: Line 1:
{{short description|Statistical measure of a test's accuracy}}
{{short description|Statistical measure of a test's accuracy}}
{{For|the significance test|F-test}}
[[File:Precisionrecall.svg|thumb|350px|यथार्थता और पुन:स्मरण]][[द्विआधारी वर्गीकरण]] के सांख्यिकी विश्लेषण में, एफ-स्कोर या एफ-माप एक परीक्षण की शुद्धता और परिशुद्धता में बाइनरी वर्गीकरण की एक युक्ति है। इसकी गणना परीक्षण की यथार्थता (सूचना पुनर्प्राप्ति) और [[रिकॉल (सूचना पुनर्प्राप्ति)|पुन:स्मरण (सूचना पुनर्प्राप्ति)]] से की जाती है, जहां यथार्थ सही सकारात्मक परिणामों की संख्या को सभी सकारात्मक परिणामों की संख्या से विभाजित किया जाता है, जिसमें सही ढंग से पहचान नहीं की जाती है और पुन:स्मरण है, सच्चे सकारात्मक परिणामों की संख्या को उन सभी नमूनों की संख्या से विभाजित किया जाता है जिन्हें सकारात्मक के रूप में पहचाना जाना चाहिए था। परिशुद्धता को [[सकारात्मक भविष्य कहनेवाला मूल्य|सकारात्मक पूर्वकथन सूचकांक]] के रूप में भी जाना जाता है, और डायग्नोस्टिक बाइनरी वर्गीकरण में पुन:स्मरण को संवेदनशीलता और विशिष्टता के रूप में भी जाना जाता है।
[[File:Precisionrecall.svg|thumb|350px|सटीक और याद]][[द्विआधारी वर्गीकरण]] के सांख्यिकी विश्लेषण में, एफ-स्कोर या एफ-माप एक परीक्षण की शुद्धता_और_परिशुद्धता#इन_बाइनरी_वर्गीकरण का एक उपाय है। इसकी गणना परीक्षण की सटीकता (सूचना पुनर्प्राप्ति) और [[रिकॉल (सूचना पुनर्प्राप्ति)]] से की जाती है, जहां सटीक सही सकारात्मक परिणामों की संख्या को सभी सकारात्मक परिणामों की संख्या से विभाजित किया जाता है, जिसमें सही ढंग से पहचान नहीं की जाती है, और रिकॉल है सच्चे सकारात्मक परिणामों की संख्या को उन सभी नमूनों की संख्या से विभाजित किया जाता है जिन्हें सकारात्मक के रूप में पहचाना जाना चाहिए था। परिशुद्धता को [[सकारात्मक भविष्य कहनेवाला मूल्य]] के रूप में भी जाना जाता है, और डायग्नोस्टिक बाइनरी वर्गीकरण में रिकॉल को संवेदनशीलता_और_विशिष्टता के रूप में भी जाना जाता है।


एफ<sub>1</sub>स्कोर सटीक और रिकॉल का [[अनुकूल माध्य]] है। इस प्रकार यह सममित रूप से एक मीट्रिक में सटीक और रिकॉल दोनों का प्रतिनिधित्व करता है। अधिक सामान्य <math>F_\beta</math> स्कोर अतिरिक्त भार लागू करता है, एक सटीकता का मूल्यांकन करता है या दूसरे से अधिक याद करता है।
एफ<sub>1</sub> स्कोर यथार्थ और पुन:स्मरण का [[अनुकूल माध्य]] है। इस प्रकार यह सममित रूप से एक मीट्रिक में यथार्थ और पुन:स्मरण दोनों का प्रतिनिधित्व करता है। अधिक सामान्य <math>F_\beta</math> स्कोर अतिरिक्त भार लागू करता है, एक यथार्थता का मूल्यांकन करता है या दूसरे से अधिक याद करता है।


एफ-स्कोर का उच्चतम संभव मान 1.0 है, जो सटीक सटीकता और रिकॉल का संकेत देता है, और न्यूनतम संभव मान 0 है, यदि सटीकता या रिकॉल शून्य है।
एफ-स्कोर का उच्चतम संभव मान 1.0 है, जो यथार्थता और पुन:स्मरण का संकेत देता है, और न्यूनतम संभव मान 0 है, यदि यथार्थता या पुन:स्मरण शून्य है।


== व्युत्पत्ति ==
== व्युत्पत्ति ==
माना जाता है कि एफ-माप का नाम वान रिज्सबर्गेन की किताब में एक अलग एफ फ़ंक्शन के नाम पर रखा गया था, जब चौथे [[संदेश समझ सम्मेलन]] (एमयूसी -4, 1992) में पेश किया गया था।<ref>{{cite news | last = Sasaki| first = Y. | url=https://www.toyota-ti.ac.jp/Lab/Denshi/COIN/people/yutaka.sasaki/F-measure-YS-26Oct07.pdf|year = 2007 | title = The truth of the F-measure  }}</ref>
ऐसा माना जाता है कि एफ-माप का नाम वान रिज्सबर्गेन की किताब में एक अलग एफ फ़ंक्शन के नाम पर रखा गया था, जब उसे फोर्थ [[मैसेज अंडरस्टैंडिंग कॉन्फ्रेंस]] (एमयूसी-4, 1992) में पेश किया गया था।<ref>{{cite news | last = Sasaki| first = Y. | url=https://www.toyota-ti.ac.jp/Lab/Denshi/COIN/people/yutaka.sasaki/F-measure-YS-26Oct07.pdf|year = 2007 | title = The truth of the F-measure  }}</ref>




== परिभाषा ==
== परिभाषा ==
{{Refimprove section|date=December 2018}}
पारंपरिक एफ-माप या संतुलित एफ-स्कोर (एफ<sub>1</sub> स्कोर) यथार्थ माध्य हार्मोनिक माध्य दो संख्याओं का यथार्थ और पुन:स्मरण है:<ref>{{Cite journal  
पारंपरिक एफ-माप या संतुलित एफ-स्कोर (एफ<sub>1</sub> स्कोर) सुरीले माध्य # हार्मोनिक माध्य दो संख्याओं का सटीक और रिकॉल है:<ref>{{Cite journal  
| last1 = Aziz Taha  
| last1 = Aziz Taha  
| first1 = Abdel  
| first1 = Abdel  
Line 31: Line 29:
=== एफ<sub>β</sub> स्कोर ===
=== एफ<sub>β</sub> स्कोर ===


एक अधिक सामान्य एफ स्कोर, <math>F_\beta</math>, जो सकारात्मक वास्तविक कारक का उपयोग करता है <math>\beta</math>, कहाँ <math>\beta</math> ऐसा चुना जाता है कि रिकॉल पर विचार किया जाता है <math>\beta</math> सटीकता जितना महत्वपूर्ण है, वह है:
एक अधिक सामान्य एफ स्कोर, <math>F_\beta</math>, जो सकारात्मक वास्तविक कारक का उपयोग करता है <math>\beta</math>, जहाँ <math>\beta</math> ऐसा चुना जाता है कि पुन:स्मरण पर विचार किया जाता है <math>\beta</math> यथार्थता जितना महत्वपूर्ण है, वह है:
:<math>F_\beta = (1 + \beta^2) \cdot \frac{\mathrm{precision} \cdot \mathrm{recall}}{(\beta^2 \cdot \mathrm{precision}) + \mathrm{recall}}</math>.
:<math>F_\beta = (1 + \beta^2) \cdot \frac{\mathrm{precision} \cdot \mathrm{recall}}{(\beta^2 \cdot \mathrm{precision}) + \mathrm{recall}}</math>.


Line 38: Line 36:
:<math>F_\beta = \frac {(1 + \beta^2) \cdot \mathrm{true\ positive} }{(1 + \beta^2) \cdot \mathrm{true\ positive} + \beta^2 \cdot \mathrm{false\ negative} + \mathrm{false\ positive}}\,</math>.
:<math>F_\beta = \frac {(1 + \beta^2) \cdot \mathrm{true\ positive} }{(1 + \beta^2) \cdot \mathrm{true\ positive} + \beta^2 \cdot \mathrm{false\ negative} + \mathrm{false\ positive}}\,</math>.


के लिए आमतौर पर उपयोग किए जाने वाले दो मान <math>\beta</math> 2 हैं, जिनका वजन सटीक से अधिक रिकॉल है, और 0.5 है, जिनका वजन सटीक से कम रिकॉल है।
के लिए सामान्यतः उपयोग किए जाने वाले दो मान <math>\beta</math> 2 हैं, जिनका वजन यथार्थ से अधिक पुन:स्मरण है, और 0.5 है, जिनका वजन यथार्थ से कम पुन:स्मरण है।


एफ-माप इसलिए निकाला गया था <math>F_\beta</math> संलग्न करने वाले उपयोगकर्ता के संबंध में पुनर्प्राप्ति की प्रभावशीलता को मापता है <math>\beta</math> बार-बार याद करने का उतना ही महत्व जितना सटीकता से।<ref>{{cite book | last = Van Rijsbergen | first = C. J. | url=http://www.dcs.gla.ac.uk/Keith/Preface.html|year = 1979 | title = सूचना की पुनर्प्राप्ति| edition= 2nd | publisher=Butterworth-Heinemann }}</ref> यह C. J. van Rijsbergen के प्रभावशीलता माप पर आधारित है
एफ-माप इसलिए निकाला गया था <math>F_\beta</math> संलग्न करने वाले उपयोगकर्ता के संबंध में पुनर्प्राप्ति की प्रभावशीलता को मापता है <math>\beta</math> बार-बार याद करने का उतना ही महत्व जितना यथार्थता से<ref>{{cite book | last = Van Rijsbergen | first = C. J. | url=http://www.dcs.gla.ac.uk/Keith/Preface.html|year = 1979 | title = सूचना की पुनर्प्राप्ति| edition= 2nd | publisher=Butterworth-Heinemann }}</ref> यह सी. जे. वैन रिज्सबर्गेन के प्रभावशीलता माप पर आधारित है


:<math>E = 1 - \left(\frac{\alpha}{p} + \frac{1-\alpha}{r}\right)^{-1}</math>.
:<math>E = 1 - \left(\frac{\alpha}{p} + \frac{1-\alpha}{r}\right)^{-1}</math>.


उनका सम्बन्ध है <math>F_\beta = 1 - E</math> कहाँ <math>\alpha=\frac{1}{1 + \beta^2}</math>.
उनका सम्बन्ध है <math>F_\beta = 1 - E</math> जहाँ <math>\alpha=\frac{1}{1 + \beta^2}</math>.


== नैदानिक ​​परीक्षण ==
== नैदानिक ​​परीक्षण ==


यह बाइनरी वर्गीकरण के क्षेत्र से संबंधित है जहां रिकॉल को अक्सर संवेदनशीलता कहा जाता है।
यह बाइनरी वर्गीकरण के क्षेत्र से संबंधित है जहां पुन:स्मरण को प्रायः संवेदनशीलता कहा जाता है।
  {{diagnostic testing diagram}}
  {{diagnostic testing diagram}}
[[File:Harmonic_mean_3D_plot_from_0_to_100.png|thumb|300px|सामान्यीकृत हार्मोनिक माध्य प्लॉट जहां x सटीक है, y रिकॉल है और ऊर्ध्वाधर अक्ष F है<sub>1</sub> स्कोर, प्रतिशत अंकों में]]
[[File:Harmonic_mean_3D_plot_from_0_to_100.png|thumb|300px|सामान्यीकृत हार्मोनिक माध्य प्लॉट जहां x यथार्थ है, y पुन:स्मरण है, और स्कोर, प्रतिशत अंकों में ऊर्ध्वाधर अक्ष F<sub>1</sub> है ]]


== वर्ग असंतुलन पर एफ-स्कोर की निर्भरता ==
== वर्ग असंतुलन पर एफ-स्कोर की निर्भरता ==


प्रेसिजन-रिकॉल वक्र, और इस प्रकार <math>F_\beta</math> स्कोर, स्पष्ट रूप से अनुपात पर निर्भर करता है
प्रेसिजन-पुन:स्मरण वक्र, और इस प्रकार <math>F_\beta</math> स्कोर, स्पष्ट रूप से अनुपात पर निर्भर करता है
  <math>r</math> सकारात्मक से नकारात्मक परीक्षण मामलों की।<ref name="brabec2020-model">
  <math>r</math> सकारात्मक से नकारात्मक परीक्षण मामलों की।<ref name="brabec2020-model">
{{cite conference
{{cite conference
Line 74: Line 72:
| doi-access = free
| doi-access = free
}}</ref>
}}</ref>
इसका मतलब है कि की तुलना
इसका मतलब है कि की तुलना अलग-अलग वर्ग अनुपात के साथ अलग-अलग समस्याओं में समस्याग्रस्त एफ-स्कोर है। इस प्रकरण को हल करने का एक तरीका (उदाहरण देखें, सिब्लिनी एट अल, 2020<ref name="siblini-20">
अलग-अलग वर्ग अनुपात के साथ अलग-अलग समस्याओं में एफ-स्कोर है
समस्याग्रस्त। इस मुद्दे को हल करने का एक तरीका (उदाहरण देखें, सिब्लिनी एट अल,
2020<ref name="siblini-20">
{{cite conference
{{cite conference
| title = Master your metrics with calibration
| title = Master your metrics with calibration
Line 98: Line 93:
| arxiv=1909.02827
| arxiv=1909.02827
| doi-access = free
| doi-access = free
}}</ref>
}}</ref>) एक मानक वर्ग अनुपात का उपयोग <math>r_0</math> की तुलना करते समय करना है।
) एक मानक वर्ग अनुपात का उपयोग करना है <math>r_0</math> ऐसी तुलना करते समय।


== अनुप्रयोग ==
== अनुप्रयोग ==


[[वेब खोज]], [[दस्तावेज़ वर्गीकरण]] और [[क्वेरी वर्गीकरण]] प्रदर्शन को मापने के लिए अक्सर एफ-स्कोर का उपयोग सूचना पुनर्प्राप्ति के क्षेत्र में किया जाता है।<ref>{{cite thesis | first=Steven M. |last=Beitzel. |citeseerx = 10.1.1.127.634 | title=वेब प्रश्नों को समझने और वर्गीकृत करने पर| degree=Ph.D.  | publisher=IIT | year= 2006}}</ref> पहले के कार्य मुख्य रूप से F पर केंद्रित थे<sub>1</sub> स्कोर, लेकिन बड़े पैमाने पर खोज इंजनों के प्रसार के साथ, प्रदर्शन लक्ष्य या तो सटीक या रिकॉल पर अधिक जोर देने के लिए बदल गए<ref>{{cite conference |author1=X. Li |author2=Y.-Y. Wang |author3=A. Acero |s2cid=8482989 | title=नियमित क्लिक ग्राफ़ से क्वेरी इंटेंट सीखना| work= Proceedings of the 31st SIGIR Conference |date=July 2008|page=339 |doi=10.1145/1390334.1390393 |isbn=9781605581644 }}</ref> इसलिए <math>F_\beta</math> व्यापक प्रयोग में देखा जाता है।
[[वेब खोज|वेब सर्च]], [[दस्तावेज़ वर्गीकरण|डॉक्यूमेंट वर्गीकरण]] और [[क्वेरी वर्गीकरण]] प्रदर्शन को मापने के लिए प्रायः एफ-स्कोर का उपयोग सूचना पुनर्प्राप्ति के क्षेत्र में किया जाता है।<ref>{{cite thesis | first=Steven M. |last=Beitzel. |citeseerx = 10.1.1.127.634 | title=वेब प्रश्नों को समझने और वर्गीकृत करने पर| degree=Ph.D.  | publisher=IIT | year= 2006}}</ref> पहले के स्कोर कार्य मुख्य रूप से F<sub>1</sub> पर केंद्रित थे, लेकिन बड़े पैमाने पर सर्च इंजनों के प्रसार के साथ, प्रदर्शन लक्ष्य या तो यथार्थ या पुन:स्मरण पर अधिक जोर देने के लिए बदल गए<ref>{{cite conference |author1=X. Li |author2=Y.-Y. Wang |author3=A. Acero |s2cid=8482989 | title=नियमित क्लिक ग्राफ़ से क्वेरी इंटेंट सीखना| work= Proceedings of the 31st SIGIR Conference |date=July 2008|page=339 |doi=10.1145/1390334.1390393 |isbn=9781605581644 }}</ref> इसलिए <math>F_\beta</math> व्यापक प्रयोग में देखा जाता है।
 
[[ यंत्र अधिगम |यांत्रिक अधिगम]] में भी एफ-स्कोर का उपयोग किया जाता है।<ref>See, e.g., the evaluation of the [https://dl.acm.org/citation.cfm?id=1119195].</ref> हालांकि, एफ-स्कोर वास्तविक नकारात्मकताओं को ध्यान में नहीं रखते हैं, इसलिए बाइनरी क्लासिफायरियर के प्रदर्शन का आकलन करने के लिए [[मैथ्यूज सहसंबंध गुणांक]], सूचना या कोहेन के कप्पा जैसे उपायों को प्राथमिकता दी जा सकती है।<ref>{{cite arXiv |eprint=1503.06410|title=एफ-माप क्या नहीं मापता है|last1=Powers|first1=David M. W|class=cs.IR|year=2015}}</ref>


[[ यंत्र अधिगम ]] में भी एफ-स्कोर का उपयोग किया जाता है।<ref>See, e.g., the evaluation of the [https://dl.acm.org/citation.cfm?id=1119195].</ref> हालांकि, एफ-उपाय वास्तविक नकारात्मकताओं को ध्यान में नहीं रखते हैं, इसलिए बाइनरी क्लासिफायरियर के प्रदर्शन का आकलन करने के लिए [[मैथ्यूज सहसंबंध गुणांक]], सूचना या कोहेन के कप्पा जैसे उपायों को प्राथमिकता दी जा सकती है।<ref>{{cite arXiv |eprint=1503.06410|title=एफ-माप क्या नहीं मापता है|last1=Powers|first1=David M. W|class=cs.IR|year=2015}}</ref>
प्राकृतिक भाषा प्रसंस्करण साहित्य में एफ-स्कोर का व्यापक रूप से उपयोग किया गया है,<ref name="Derczynski2016">{{cite conference |first=L. |last=Derczynski | url= https://www.aclweb.org/anthology/L16-1040  | title= पूरकता, एफ-स्कोर और एनएलपी मूल्यांकन| work= Proceedings of the International Conference on Language Resources and Evaluation| date= 2016}}</ref> जैसे नामित इकाई पहचान और [[शब्द विभाजन]] के मूल्यांकन में।
प्राकृतिक भाषा प्रसंस्करण साहित्य में एफ-स्कोर का व्यापक रूप से उपयोग किया गया है,<ref name="Derczynski2016">{{cite conference |first=L. |last=Derczynski | url= https://www.aclweb.org/anthology/L16-1040  | title= पूरकता, एफ-स्कोर और एनएलपी मूल्यांकन| work= Proceedings of the International Conference on Language Resources and Evaluation| date= 2016}}</ref> जैसे नामित इकाई पहचान और [[शब्द विभाजन]] के मूल्यांकन में।


== गुण ==
== गुण ==


एफ<sub>1</sub> स्कोर पुनर्प्राप्त वस्तुओं के सेट और प्रासंगिक वस्तुओं के सेट का पासा गुणांक है।<ref>{{cite book |last1=Manning |first1=Christopher |title=सूचना पुनर्प्राप्ति का एक परिचय|date=April 1, 2009 |publisher=Cambridge University Press |location=Exercise 8.7 |page=200 |url=https://nlp.stanford.edu/IR-book/pdf/irbookonlinereading.pdf |access-date=18 July 2022}}</ref>
एफ<sub>1</sub> स्कोर पुनर्प्राप्त वस्तुओं के सेट और प्रासंगिक वस्तुओं के सेट का पासा गुणांक है। परिशुद्धता को [[सकारात्मक भविष्य कहनेवाला मूल्य|सकारात्मक पूर्वकथन सूचकांक]] के रूप में भी जाना जाता है, और डायग्नोस्टिक बाइनरी वर्गीकरण में पुन:स्मरण को संवेदनशीलता और विशिष्टता के रूप में भी जाना जाता है।<ref>{{cite book |last1=Manning |first1=Christopher |title=सूचना पुनर्प्राप्ति का एक परिचय|date=April 1, 2009 |publisher=Cambridge University Press |location=Exercise 8.7 |page=200 |url=https://nlp.stanford.edu/IR-book/pdf/irbookonlinereading.pdf |access-date=18 July 2022}}</ref>




== आलोचना ==
== आलोचना ==
डेविड हैंड (सांख्यिकीविद) और अन्य लोग एफ के व्यापक उपयोग की आलोचना करते हैं<sub>1</sub> स्कोर क्योंकि यह सटीक और रिकॉल को समान महत्व देता है। व्यवहार में, विभिन्न प्रकार के गलत वर्गीकरणों की अलग-अलग लागतें होती हैं। दूसरे शब्दों में, सटीक और रिकॉल का सापेक्ष महत्व समस्या का एक पहलू है।<ref>{{Cite journal|url=https://app.dimensions.ai/details/publication/pub.1084928040|title=रिकॉर्ड लिंकेज एल्गोरिदम के मूल्यांकन के लिए एफ-माप का उपयोग करने पर एक नोट - आयाम|last=Hand|first=David|website=app.dimensions.ai|language=en|access-date=2018-12-08|doi=10.1007/s11222-017-9746-6|hdl=10044/1/46235|s2cid=38782128|hdl-access=free}}</ref>
डेविड हैंड (सांख्यिकीविद) और अन्य लोग एफ<sub>1</sub> के व्यापक उपयोग की आलोचना करते हैं स्कोर क्योंकि यह यथार्थ और पुन:स्मरण को समान महत्व देता है। व्यवहार में, विभिन्न प्रकार के गलत वर्गीकरणों की अलग-अलग लागतें होती हैं। दूसरे शब्दों में, यथार्थ और पुन:स्मरण का सापेक्ष महत्व समस्या का एक पहलू है।<ref>{{Cite journal|url=https://app.dimensions.ai/details/publication/pub.1084928040|title=रिकॉर्ड लिंकेज एल्गोरिदम के मूल्यांकन के लिए एफ-माप का उपयोग करने पर एक नोट - आयाम|last=Hand|first=David|website=app.dimensions.ai|language=en|access-date=2018-12-08|doi=10.1007/s11222-017-9746-6|hdl=10044/1/46235|s2cid=38782128|hdl-access=free}}</ref>
डेविड चिक्को और ग्यूसेप जुर्मन के अनुसार, एफ<sub>1</sub> बाइनरी मूल्यांकन वर्गीकरण में मैथ्यूज सहसंबंध गुणांक|मैथ्यूज सहसंबंध गुणांक (एमसीसी) की तुलना में स्कोर कम सच्चा और सूचनात्मक है।<ref>{{cite journal  
 
डेविड चिक्को और ग्यूसेप जुर्मन के अनुसार, एफ<sub>1</sub> बाइनरी मूल्यांकन वर्गीकरण में मैथ्यूज सहसंबंध गुणांक मैथ्यूज सहसंबंध गुणांक (एमसीसी) की तुलना में स्कोर कम सच्चा और सूचनात्मक है।<ref>{{cite journal  
| vauthors = Chicco D, Jurman G
| vauthors = Chicco D, Jurman G
| title = The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation  
| title = The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation  
Line 125: Line 121:
| pmid = 31898477
| pmid = 31898477
| doi = 10.1186/s12864-019-6413-7
| doi = 10.1186/s12864-019-6413-7
| pmc= 6941312}}</ref>
| pmc= 6941312}}</ref> डेविड पॉवर्स ने बताया है कि एफ<sub>1</sub> ट्रू नेगेटिव्स को अनदेखा करता है और इस तरह असंतुलित वर्गों के लिए भ्रामक है, जबकि कप्पा और सहसंबंध के उपाय सममित हैं और पूर्वधारणा की दोनों दिशाओं का आकलन करते हैं - क्लासिफायर ट्रू क्लास की पूर्वधारणा करता है और ट्रू क्लास क्लासिफायर पूर्वधारणा की पूर्वधारणा करता है, अलग-अलग मल्टीक्लास उपायों का प्रस्ताव करता है। दो दिशाएँ, यह देखते हुए कि उनका ज्यामितीय माध्य सहसंबंध है।<ref name="Powers2007">{{cite journal |first=David M W |last=Powers |date=2011 |title=Evaluation: From Precision, Recall and F-Score to ROC, Informedness, Markedness & Correlation |journal=Journal of Machine Learning Technologies |volume=2 |issue=1 |pages=37–63 |hdl=2328/27165 }}</ref> एफ<sub>1</sub> की आलोचना का एक अन्य स्रोत, इसकी समरूपता की कमी है। इसका अर्थ है कि जब डेटासेट लेबलिंग बदली जाती है तो इसका मान बदल सकता है - सकारात्मक नमूनों को नकारात्मक नाम दिया जाता है और इसके विपरीत यह आलोचना पी [[P4-मीट्रिक]] परिभाषा से मिलती है, जिसे कभी-कभी एफ<sub>1</sub> के सममित विस्तार के रूप में दर्शाया जाता है.<ref>{{cite arXiv | eprint=2210.11997| last1=Sitarz| first1=Mikolaj| title=F1 मीट्रिक का विस्तार, संभाव्य दृष्टिकोण| year=2022| class=cs.LG}}</ref>
डेविड पॉवर्स ने बताया है कि एफ<sub>1</sub> ट्रू नेगेटिव्स को अनदेखा करता है और इस तरह असंतुलित वर्गों के लिए भ्रामक है, जबकि कप्पा और सहसंबंध के उपाय सममित हैं और भविष्यवाणी की दोनों दिशाओं का आकलन करते हैं - क्लासिफायर ट्रू क्लास की भविष्यवाणी करता है और ट्रू क्लास क्लासिफायर भविष्यवाणी की भविष्यवाणी करता है, अलग-अलग मल्टीक्लास उपायों का प्रस्ताव करता है। दो दिशाएँ, यह देखते हुए कि उनका ज्यामितीय माध्य सहसंबंध है।<ref name="Powers2007">{{cite journal |first=David M W |last=Powers |date=2011 |title=Evaluation: From Precision, Recall and F-Score to ROC, Informedness, Markedness & Correlation |journal=Journal of Machine Learning Technologies |volume=2 |issue=1 |pages=37–63 |hdl=2328/27165 }}</ref>
 
एफ की आलोचना का एक अन्य स्रोत<sub>1</sub>, इसकी समरूपता की कमी है। इसका अर्थ है कि जब डेटासेट लेबलिंग बदली जाती है तो इसका मान बदल सकता है - सकारात्मक नमूनों को नकारात्मक नाम दिया जाता है और इसके विपरीत।
यह आलोचना पी [[P4-मीट्रिक]] परिभाषा से मिलती है, जिसे कभी-कभी एफ के सममित विस्तार के रूप में दर्शाया जाता है<sub>1</sub>.<ref>{{cite arXiv | eprint=2210.11997| last1=Sitarz| first1=Mikolaj| title=F1 मीट्रिक का विस्तार, संभाव्य दृष्टिकोण| year=2022| class=cs.LG}}</ref>




== फाउलकेस-मैलो इंडेक्स से अंतर ==
== फाउलकेस-मैलो इंडेक्स से अंतर ==


जबकि एफ-माप रिकॉल और सटीक का हार्मोनिक माध्य है, फाउलकेस-मैलो इंडेक्स उनका ज्यामितीय माध्य है।<ref>
जबकि एफ-माप पुन:स्मरण और यथार्थ का हार्मोनिक माध्य है, फाउलकेस-मैलो इंडेक्स उनका ज्यामितीय माध्य है।<ref>
{{cite journal  
{{cite journal  
| vauthors = Tharwat A
| vauthors = Tharwat A
Line 148: Line 142:
== बहु-श्रेणी वर्गीकरण का विस्तार ==
== बहु-श्रेणी वर्गीकरण का विस्तार ==


एफ-स्कोर का उपयोग दो से अधिक वर्गों ([[मल्टीक्लास वर्गीकरण]]) के साथ वर्गीकरण समस्याओं के मूल्यांकन के लिए भी किया जाता है। इस सेटअप में, माइक्रो-एवरेजिंग (वर्ग आवृत्ति द्वारा पक्षपाती) या मैक्रो-एवरेजिंग (सभी वर्गों को समान रूप से महत्वपूर्ण मानते हुए) द्वारा अंतिम स्कोर प्राप्त किया जाता है। मैक्रो-एवरेजिंग के लिए, आवेदकों द्वारा दो अलग-अलग फ़ार्मुलों का उपयोग किया गया है: एफ-स्कोर (अंकगणित) वर्ग-वार सटीक और रिकॉल साधन या वर्ग-वार एफ-स्कोर का अंकगणितीय माध्य, जहाँ बाद वाला अधिक वांछनीय गुण प्रदर्शित करता है।<ref>{{cite arXiv | author1 = J. Opitz | author2 = S. Burst | year = 2019 | title = मैक्रो F1 और मैक्रो F1| eprint=1911.03347 |class=stat.ML }} </ref>
एफ-स्कोर का उपयोग दो से अधिक वर्गों ([[मल्टीक्लास वर्गीकरण]]) के साथ वर्गीकरण समस्याओं के मूल्यांकन के लिए भी किया जाता है। इस सेटअप में, माइक्रो-एवरेजिंग (वर्ग आवृत्ति द्वारा पक्षपाती) या मैक्रो-एवरेजिंग (सभी वर्गों को समान रूप से महत्वपूर्ण मानते हुए) द्वारा अंतिम स्कोर प्राप्त किया जाता है। मैक्रो-एवरेजिंग के लिए, आवेदकों द्वारा दो अलग-अलग फ़ार्मुलों का उपयोग किया गया है: एफ-स्कोर (अंकगणित) वर्ग-वार यथार्थ और पुन:स्मरण साधन या वर्ग-वार एफ-स्कोर का अंकगणितीय माध्य, जहाँ बाद वाला अधिक वांछनीय गुण प्रदर्शित करता है।<ref>{{cite arXiv | author1 = J. Opitz | author2 = S. Burst | year = 2019 | title = मैक्रो F1 और मैक्रो F1| eprint=1911.03347 |class=stat.ML }} </ref>




Line 154: Line 148:
* ब्ल्यू
* ब्ल्यू
* [[असमंजस का जाल]]
* [[असमंजस का जाल]]
* मूल्यांकन_ऑफ़_बाइनरी_क्लासिफायर#सिंगल_मेट्रिक्स
* मूल्यांकन ऑफ़ बाइनरी क्लासिफायर सिंगल मेट्रिक्स
* [[उल्का]]
* [[उल्का]]
* [[एनआईएसटी (मीट्रिक)]]
* [[एनआईएसटी (मीट्रिक)]]
Line 161: Line 155:
* [[अनिश्चितता गुणांक]], उर्फ ​​​​प्रवीणता
* [[अनिश्चितता गुणांक]], उर्फ ​​​​प्रवीणता
* [[शब्द त्रुटि दर]]
* [[शब्द त्रुटि दर]]
* [[ खरगोश ]]
* [[ खरगोश |लेपोर]]
{{Machine learning evaluation metrics}}
 
== संदर्भ ==
== संदर्भ ==
{{reflist}}
{{reflist}}

Revision as of 22:29, 24 March 2023

यथार्थता और पुन:स्मरण

द्विआधारी वर्गीकरण के सांख्यिकी विश्लेषण में, एफ-स्कोर या एफ-माप एक परीक्षण की शुद्धता और परिशुद्धता में बाइनरी वर्गीकरण की एक युक्ति है। इसकी गणना परीक्षण की यथार्थता (सूचना पुनर्प्राप्ति) और पुन:स्मरण (सूचना पुनर्प्राप्ति) से की जाती है, जहां यथार्थ सही सकारात्मक परिणामों की संख्या को सभी सकारात्मक परिणामों की संख्या से विभाजित किया जाता है, जिसमें सही ढंग से पहचान नहीं की जाती है और पुन:स्मरण है, सच्चे सकारात्मक परिणामों की संख्या को उन सभी नमूनों की संख्या से विभाजित किया जाता है जिन्हें सकारात्मक के रूप में पहचाना जाना चाहिए था। परिशुद्धता को सकारात्मक पूर्वकथन सूचकांक के रूप में भी जाना जाता है, और डायग्नोस्टिक बाइनरी वर्गीकरण में पुन:स्मरण को संवेदनशीलता और विशिष्टता के रूप में भी जाना जाता है।

एफ1 स्कोर यथार्थ और पुन:स्मरण का अनुकूल माध्य है। इस प्रकार यह सममित रूप से एक मीट्रिक में यथार्थ और पुन:स्मरण दोनों का प्रतिनिधित्व करता है। अधिक सामान्य स्कोर अतिरिक्त भार लागू करता है, एक यथार्थता का मूल्यांकन करता है या दूसरे से अधिक याद करता है।

एफ-स्कोर का उच्चतम संभव मान 1.0 है, जो यथार्थता और पुन:स्मरण का संकेत देता है, और न्यूनतम संभव मान 0 है, यदि यथार्थता या पुन:स्मरण शून्य है।

व्युत्पत्ति

ऐसा माना जाता है कि एफ-माप का नाम वान रिज्सबर्गेन की किताब में एक अलग एफ फ़ंक्शन के नाम पर रखा गया था, जब उसे फोर्थ मैसेज अंडरस्टैंडिंग कॉन्फ्रेंस (एमयूसी-4, 1992) में पेश किया गया था।[1]


परिभाषा

पारंपरिक एफ-माप या संतुलित एफ-स्कोर (एफ1 स्कोर) यथार्थ माध्य हार्मोनिक माध्य दो संख्याओं का यथार्थ और पुन:स्मरण है:[2]

.

एफβ स्कोर

एक अधिक सामान्य एफ स्कोर, , जो सकारात्मक वास्तविक कारक का उपयोग करता है , जहाँ ऐसा चुना जाता है कि पुन:स्मरण पर विचार किया जाता है यथार्थता जितना महत्वपूर्ण है, वह है:

.

प्रकार I और प्रकार II त्रुटियों के संदर्भ में यह बन जाता है:

.

के लिए सामान्यतः उपयोग किए जाने वाले दो मान 2 हैं, जिनका वजन यथार्थ से अधिक पुन:स्मरण है, और 0.5 है, जिनका वजन यथार्थ से कम पुन:स्मरण है।

एफ-माप इसलिए निकाला गया था संलग्न करने वाले उपयोगकर्ता के संबंध में पुनर्प्राप्ति की प्रभावशीलता को मापता है बार-बार याद करने का उतना ही महत्व जितना यथार्थता से[3] यह सी. जे. वैन रिज्सबर्गेन के प्रभावशीलता माप पर आधारित है

.

उनका सम्बन्ध है जहाँ .

नैदानिक ​​परीक्षण

यह बाइनरी वर्गीकरण के क्षेत्र से संबंधित है जहां पुन:स्मरण को प्रायः संवेदनशीलता कहा जाता है।

Predicted condition Sources: [4][5][6][7][8][9][10][11][12]
Total population
= P + N
Positive (PP) Negative (PN) Informedness, bookmaker informedness (BM)
= TPR + TNR − 1
Prevalence threshold (PT)
=
Actual condition
Positive (P) True positive (TP),
hit
False negative (FN),
type II error, miss,
underestimation
True positive rate (TPR), recall, sensitivity (SEN), probability of detection, hit rate, power
= TP/P = 1 − FNR
False negative rate (FNR),
miss rate
= FN/P = 1 − TPR
Negative (N) False positive (FP),
type I error, false alarm,
overestimation
True negative (TN),
correct rejection
False positive rate (FPR),
probability of false alarm, [[evaluation measures (information retrieval)#Fall-out|fall-out]]
= FP/N = 1 − TNR
True negative rate (TNR),
specificity (SPC), selectivity
= TN/N = 1 − FPR
Prevalence
= P/P + N
Positive predictive value (PPV), precision
= TP/PP = 1 − FDR
False omission rate (FOR)
= FN/PN = 1 − NPV
Positive likelihood ratio (LR+)
= TPR/FPR
Negative likelihood ratio (LR−)
= FNR/TNR
Accuracy (ACC) = TP + TN/P + N False discovery rate (FDR)
= FP/PP = 1 − PPV
Negative predictive value (NPV) = TN/PN = 1 − FOR Markedness (MK), deltaP (Δp)
= PPV + NPV − 1
[[Diagnostic odds ratio|Diagnostic odds ratio]] (DOR) = LR+/LR−
Balanced accuracy (BA) = TPR + TNR/2 F1 score
= 2 PPV × TPR/PPV + TPR = 2 TP/2 TP + FP + FN
Fowlkes–Mallows index (FM) = Matthews correlation coefficient (MCC)
=
Threat score (TS), critical success index (CSI), Jaccard index = TP/TP + FN + FP
सामान्यीकृत हार्मोनिक माध्य प्लॉट जहां x यथार्थ है, y पुन:स्मरण है, और स्कोर, प्रतिशत अंकों में ऊर्ध्वाधर अक्ष F1 है

वर्ग असंतुलन पर एफ-स्कोर की निर्भरता

प्रेसिजन-पुन:स्मरण वक्र, और इस प्रकार स्कोर, स्पष्ट रूप से अनुपात पर निर्भर करता है

 सकारात्मक से नकारात्मक परीक्षण मामलों की।[13]

इसका मतलब है कि की तुलना अलग-अलग वर्ग अनुपात के साथ अलग-अलग समस्याओं में समस्याग्रस्त एफ-स्कोर है। इस प्रकरण को हल करने का एक तरीका (उदाहरण देखें, सिब्लिनी एट अल, 2020[14]) एक मानक वर्ग अनुपात का उपयोग की तुलना करते समय करना है।

अनुप्रयोग

वेब सर्च, डॉक्यूमेंट वर्गीकरण और क्वेरी वर्गीकरण प्रदर्शन को मापने के लिए प्रायः एफ-स्कोर का उपयोग सूचना पुनर्प्राप्ति के क्षेत्र में किया जाता है।[15] पहले के स्कोर कार्य मुख्य रूप से F1 पर केंद्रित थे, लेकिन बड़े पैमाने पर सर्च इंजनों के प्रसार के साथ, प्रदर्शन लक्ष्य या तो यथार्थ या पुन:स्मरण पर अधिक जोर देने के लिए बदल गए[16] इसलिए व्यापक प्रयोग में देखा जाता है।

यांत्रिक अधिगम में भी एफ-स्कोर का उपयोग किया जाता है।[17] हालांकि, एफ-स्कोर वास्तविक नकारात्मकताओं को ध्यान में नहीं रखते हैं, इसलिए बाइनरी क्लासिफायरियर के प्रदर्शन का आकलन करने के लिए मैथ्यूज सहसंबंध गुणांक, सूचना या कोहेन के कप्पा जैसे उपायों को प्राथमिकता दी जा सकती है।[18]

प्राकृतिक भाषा प्रसंस्करण साहित्य में एफ-स्कोर का व्यापक रूप से उपयोग किया गया है,[19] जैसे नामित इकाई पहचान और शब्द विभाजन के मूल्यांकन में।

गुण

एफ1 स्कोर पुनर्प्राप्त वस्तुओं के सेट और प्रासंगिक वस्तुओं के सेट का पासा गुणांक है। परिशुद्धता को सकारात्मक पूर्वकथन सूचकांक के रूप में भी जाना जाता है, और डायग्नोस्टिक बाइनरी वर्गीकरण में पुन:स्मरण को संवेदनशीलता और विशिष्टता के रूप में भी जाना जाता है।[20]


आलोचना

डेविड हैंड (सांख्यिकीविद) और अन्य लोग एफ1 के व्यापक उपयोग की आलोचना करते हैं स्कोर क्योंकि यह यथार्थ और पुन:स्मरण को समान महत्व देता है। व्यवहार में, विभिन्न प्रकार के गलत वर्गीकरणों की अलग-अलग लागतें होती हैं। दूसरे शब्दों में, यथार्थ और पुन:स्मरण का सापेक्ष महत्व समस्या का एक पहलू है।[21]

डेविड चिक्को और ग्यूसेप जुर्मन के अनुसार, एफ1 बाइनरी मूल्यांकन वर्गीकरण में मैथ्यूज सहसंबंध गुणांक मैथ्यूज सहसंबंध गुणांक (एमसीसी) की तुलना में स्कोर कम सच्चा और सूचनात्मक है।[22] डेविड पॉवर्स ने बताया है कि एफ1 ट्रू नेगेटिव्स को अनदेखा करता है और इस तरह असंतुलित वर्गों के लिए भ्रामक है, जबकि कप्पा और सहसंबंध के उपाय सममित हैं और पूर्वधारणा की दोनों दिशाओं का आकलन करते हैं - क्लासिफायर ट्रू क्लास की पूर्वधारणा करता है और ट्रू क्लास क्लासिफायर पूर्वधारणा की पूर्वधारणा करता है, अलग-अलग मल्टीक्लास उपायों का प्रस्ताव करता है। दो दिशाएँ, यह देखते हुए कि उनका ज्यामितीय माध्य सहसंबंध है।[23] एफ1 की आलोचना का एक अन्य स्रोत, इसकी समरूपता की कमी है। इसका अर्थ है कि जब डेटासेट लेबलिंग बदली जाती है तो इसका मान बदल सकता है - सकारात्मक नमूनों को नकारात्मक नाम दिया जाता है और इसके विपरीत यह आलोचना पी P4-मीट्रिक परिभाषा से मिलती है, जिसे कभी-कभी एफ1 के सममित विस्तार के रूप में दर्शाया जाता है.[24]


फाउलकेस-मैलो इंडेक्स से अंतर

जबकि एफ-माप पुन:स्मरण और यथार्थ का हार्मोनिक माध्य है, फाउलकेस-मैलो इंडेक्स उनका ज्यामितीय माध्य है।[25]


बहु-श्रेणी वर्गीकरण का विस्तार

एफ-स्कोर का उपयोग दो से अधिक वर्गों (मल्टीक्लास वर्गीकरण) के साथ वर्गीकरण समस्याओं के मूल्यांकन के लिए भी किया जाता है। इस सेटअप में, माइक्रो-एवरेजिंग (वर्ग आवृत्ति द्वारा पक्षपाती) या मैक्रो-एवरेजिंग (सभी वर्गों को समान रूप से महत्वपूर्ण मानते हुए) द्वारा अंतिम स्कोर प्राप्त किया जाता है। मैक्रो-एवरेजिंग के लिए, आवेदकों द्वारा दो अलग-अलग फ़ार्मुलों का उपयोग किया गया है: एफ-स्कोर (अंकगणित) वर्ग-वार यथार्थ और पुन:स्मरण साधन या वर्ग-वार एफ-स्कोर का अंकगणितीय माध्य, जहाँ बाद वाला अधिक वांछनीय गुण प्रदर्शित करता है।[26]


यह भी देखें

संदर्भ

  1. Sasaki, Y. (2007). "The truth of the F-measure" (PDF).
  2. Aziz Taha, Abdel (2015). "Metrics for evaluating 3D medical image segmentation: analysis, selection, and tool". BMC Medical Imaging. 15 (29): 1–28. doi:10.1186/s12880-015-0068-x. PMC 4533825. PMID 26263899.
  3. Van Rijsbergen, C. J. (1979). सूचना की पुनर्प्राप्ति (2nd ed.). Butterworth-Heinemann.
  4. Balayla, Jacques (2020). "Prevalence threshold (ϕe) and the geometry of screening curves". PLoS One. 15 (10). doi:10.1371/journal.pone.0240215.
  5. Fawcett, Tom (2006). "An Introduction to ROC Analysis" (PDF). Pattern Recognition Letters. 27 (8): 861–874. doi:10.1016/j.patrec.2005.10.010.
  6. Piryonesi S. Madeh; El-Diraby Tamer E. (2020-03-01). "Data Analytics in Asset Management: Cost-Effective Prediction of the Pavement Condition Index". Journal of Infrastructure Systems. 26 (1): 04019036. doi:10.1061/(ASCE)IS.1943-555X.0000512.
  7. Powers, David M. W. (2011). "Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness & Correlation". Journal of Machine Learning Technologies. 2 (1): 37–63.
  8. Ting, Kai Ming (2011). Sammut, Claude; Webb, Geoffrey I. (eds.). Encyclopedia of machine learning. Springer. doi:10.1007/978-0-387-30164-8. ISBN 978-0-387-30164-8.
  9. Brooks, Harold; Brown, Barb; Ebert, Beth; Ferro, Chris; Jolliffe, Ian; Koh, Tieh-Yong; Roebber, Paul; Stephenson, David (2015-01-26). "WWRP/WGNE Joint Working Group on Forecast Verification Research". Collaboration for Australian Weather and Climate Research. World Meteorological Organisation. Retrieved 2019-07-17.
  10. Chicco D, Jurman G (January 2020). "The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation". BMC Genomics. 21 (1): 6-1–6-13. doi:10.1186/s12864-019-6413-7. PMC 6941312. PMID 31898477.
  11. Chicco D, Toetsch N, Jurman G (February 2021). "The Matthews correlation coefficient (MCC) is more reliable than balanced accuracy, bookmaker informedness, and markedness in two-class confusion matrix evaluation". BioData Mining. 14 (13): 1-22. doi:10.1186/s13040-021-00244-z. PMC 7863449. PMID 33541410.
  12. Tharwat A. (August 2018). "Classification assessment methods". Applied Computing and Informatics. doi:10.1016/j.aci.2018.08.003.
  13. Brabec, Jan; Komárek, Tomáš; Franc, Vojtěch; Machlica, Lukáš (2020). "On model evaluation under non-constant class imbalance". International Conference on Computational Science. Springer. pp. 74–87. arXiv:2001.05571. doi:10.1007/978-3-030-50423-6_6.
  14. Siblini, W.; Fréry, J.; He-Guelton, L.; Oblé, F.; Wang, Y. Q. (2020). "Master your metrics with calibration". In M. Berthold; A. Feelders; G. Krempl (eds.). Advances in Intelligent Data Analysis XVIII. Springer. pp. 457–469. arXiv:1909.02827. doi:10.1007/978-3-030-44584-3_36.
  15. Beitzel., Steven M. (2006). वेब प्रश्नों को समझने और वर्गीकृत करने पर (Ph.D. thesis). IIT. CiteSeerX 10.1.1.127.634.
  16. X. Li; Y.-Y. Wang; A. Acero (July 2008). नियमित क्लिक ग्राफ़ से क्वेरी इंटेंट सीखना. Proceedings of the 31st SIGIR Conference. p. 339. doi:10.1145/1390334.1390393. ISBN 9781605581644. S2CID 8482989.
  17. See, e.g., the evaluation of the [1].
  18. Powers, David M. W (2015). "एफ-माप क्या नहीं मापता है". arXiv:1503.06410 [cs.IR].
  19. Derczynski, L. (2016). पूरकता, एफ-स्कोर और एनएलपी मूल्यांकन. Proceedings of the International Conference on Language Resources and Evaluation.
  20. Manning, Christopher (April 1, 2009). सूचना पुनर्प्राप्ति का एक परिचय (PDF). Exercise 8.7: Cambridge University Press. p. 200. Retrieved 18 July 2022.{{cite book}}: CS1 maint: location (link)
  21. Hand, David. "रिकॉर्ड लिंकेज एल्गोरिदम के मूल्यांकन के लिए एफ-माप का उपयोग करने पर एक नोट - आयाम". app.dimensions.ai (in English). doi:10.1007/s11222-017-9746-6. hdl:10044/1/46235. S2CID 38782128. Retrieved 2018-12-08.
  22. Chicco D, Jurman G (January 2020). "The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation". BMC Genomics. 21 (6): 6. doi:10.1186/s12864-019-6413-7. PMC 6941312. PMID 31898477.
  23. Powers, David M W (2011). "Evaluation: From Precision, Recall and F-Score to ROC, Informedness, Markedness & Correlation". Journal of Machine Learning Technologies. 2 (1): 37–63. hdl:2328/27165.
  24. Sitarz, Mikolaj (2022). "F1 मीट्रिक का विस्तार, संभाव्य दृष्टिकोण". arXiv:2210.11997 [cs.LG].
  25. Tharwat A (August 2018). "Classification assessment methods". Applied Computing and Informatics. 17 (ahead-of-print): 168–192. doi:10.1016/j.aci.2018.08.003.
  26. J. Opitz; S. Burst (2019). "मैक्रो F1 और मैक्रो F1". arXiv:1911.03347 [stat.ML].