अनोमली डिटेक्शन: Difference between revisions
m (Abhishek moved page असंगति का पता लगाये to अनोमली डिटेक्शन without leaving a redirect) |
(text) |
||
Line 3: | Line 3: | ||
{{Machine learning|Problems}} | {{Machine learning|Problems}} | ||
{{Information security}} | {{Information security}} | ||
[[डेटा विश्लेषण|डाटा एनालिसिस]] में, '''अनोमली डिटेक्शन''' (जिसे आउटलायर डिटेक्शन और कभी-कभी नोवेल्टी डिटेक्शन भी कहा जाता है) को | [[डेटा विश्लेषण|डाटा एनालिसिस]] में, '''अनोमली डिटेक्शन''' (जिसे आउटलायर डिटेक्शन और कभी-कभी नोवेल्टी डिटेक्शन भी कहा जाता है) को सामान्यतः रेयर आइटम, इवेंट या ऑब्जरवेशन की आइडेंटिफिकेशन के रूप में समझा जाता है जो मैजोरिटी डाटा से सिग्निफिकैंटली डेविएट होते हैं और नार्मल बेहेवियर की एक अच्छी तरह से विस्तारित नोशन के कन्फॉर्म नहीं होते हैं। <ref name="ChandolaSurvey"/> ऐसे उदाहरण किसी डिफरेंट मैकेनिज्म द्वारा उत्पन्न होने का ससपिशिअन अराउस कर सकते हैं, <ref name="Hawkins 1980">{{cite book |last= Hawkins |first= Douglas M.|author-link= |date=1980 |title=आउटलेर्स की पहचान|url= |location= |publisher=Chapman and Hall London; New York |page= |isbn=}}</ref> या डेटा के उस सेट के रिमेनडर के साथ इन्कन्सीस्टेन्ट अपीयर होता है। <ref name="Outliers in statistical data">{{cite book |last1= Barnett |first1=Vic |last2= Lewis |first2=Lewis |author-link= |date=1978 |title=सांख्यिकीय डेटा में आउटलेर्स|url= |location= |publisher=John Wiley & Sons Ltd.|page= |isbn=}}</ref> | ||
अनोमली डिटेक्शन का उपयोग साइबर सिक्योरिटी, मेडिसिन, मशीन विज़न, स्टेटिस्टिक्स, न्यूरोसाइंस, लॉ एनफोर्समेंट और फाइनेंशियल फ्रॉड सहित कई डोमेन में किया जाता है। स्टेटिस्टिक्स एनालिसिस में हेल्प के लिए स्टार्टिंग में डेटा से क्लियर रिजेक्शन या ओमिशन के लिए एनालिसिस की खोज की गई थी, | अनोमली डिटेक्शन का उपयोग साइबर सिक्योरिटी, मेडिसिन, मशीन विज़न, स्टेटिस्टिक्स, न्यूरोसाइंस, लॉ एनफोर्समेंट और फाइनेंशियल फ्रॉड सहित कई डोमेन में किया जाता है। स्टेटिस्टिक्स एनालिसिस में हेल्प के लिए स्टार्टिंग में डेटा से क्लियर रिजेक्शन या ओमिशन के लिए एनालिसिस की खोज की गई थी, उदाहरण के लिए मीन या स्टैन्डर्ड डेविएशन की गणना करने के लिए की गई थी। उन्हें रैखिक प्रतिगमन जैसे मॉडलों से बेहतर प्रेडिक्शन के लिए भी हटा दिया गया था, और हाल ही में उनका रिमूवल मशीन लर्निंग एल्गोरिदम के परफॉरमेंस में हेल्प करता है। हालाँकि, कई ऍप्लिकेशन्स में अनोमालिस स्वयं रुचिकर होती हैं और संपूर्ण डेटा सेट में सबसे अधिक वांछित ऑब्जरवेशन होती हैं, जिन्हें डिटेक्शनने और नॉइज़ या इर्रेलेवेंट आउटलेर्स से सेपरेट करने की आवश्यकता होती है। | ||
अनोमली डिटेक्शन की टेक्नीकों की तीन ब्रॉड केटेगरी उपस्थित हैं। <ref name="ChandolaSurvey" /> सुपरवाइज़ड अनोमली डिटेक्शन वाली टेक्नीकों के लिए एक डेटा सेट की आवश्यकता होती है जिसे नॉर्मल और अबनॉर्मल रूप में लेबल किया गया है और इसमें एक क्लासिफायरियर को ट्रेनिंग करना | अनोमली डिटेक्शन की टेक्नीकों की तीन ब्रॉड केटेगरी उपस्थित हैं। <ref name="ChandolaSurvey" /> सुपरवाइज़ड अनोमली डिटेक्शन वाली टेक्नीकों के लिए एक डेटा सेट की आवश्यकता होती है जिसे नॉर्मल और अबनॉर्मल रूप में लेबल किया गया है और इसमें एक क्लासिफायरियर को ट्रेनिंग करना सम्मिलित है। हालाँकि, लेबल किए गए डेटा की नॉर्मल अनअवेलेबिलिटी और क्लास की इन्हेरेंट अनबैलेंस्ड नेचर के कारण अनोमली डिटेक्शन में इस एप्रोच का उपयोग संभवतः कभी किया जाता है। सेमि-सुपरवाइज़ड अनोमली डिटेक्शन वाली टेक्नीक मानती हैं कि डेटा के कुछ हिस्से को लेबल किया गया है। यह नॉर्मल या अबनॉर्मल डेटा का कोई भी कॉम्बिनेशन हो सकता है, लेकिन अधिकतर टेक्नीक किसी दिए गए नॉर्मल प्रलर्निंग डेटा सेट से [[सामान्य व्यवहार|नॉर्मल बिहेवियर]] को रिप्रेजेंट करने वाला एक मॉडल बनाती हैं, और फिर एक ट्रेनिंग उदाहरण उत्पन्न होने की संभावना का टेस्ट करती हैं। अनसुपरवाइज़ड अनोमली डिटेक्शन वाली टेक्नीक मानती हैं कि डेटा अनलेबल है और उनके वाइडर और रिलेवेंट एप्लीकेशन के कारण अब तक सबसे अधिक उपयोग किया जाता है। | ||
== परिभाषा == | == परिभाषा == | ||
किसी अनोमली को डिफाइन करने के लिए स्टेटिस्टिक्स और कंप्यूटर साइंस कम्युनिटी में कई एटेम्पट किए गए हैं। सबसे अधिक प्रीवलेंट वन में | किसी अनोमली को डिफाइन करने के लिए स्टेटिस्टिक्स और कंप्यूटर साइंस कम्युनिटी में कई एटेम्पट किए गए हैं। सबसे अधिक प्रीवलेंट वन में सम्मिलित हैं: | ||
* आउटलायर वह ऑब्जरवेशन है जो अन्य ऑब्जरवेशन से इतना अधिक डेविएट हो जाता है कि यह ससपिशियन अराउस हो जाता है कि यह एक अलग मैकेनिज्म द्वारा जेनेरेट किया गया था। <ref name="Hawkins 1980"/> | * आउटलायर वह ऑब्जरवेशन है जो अन्य ऑब्जरवेशन से इतना अधिक डेविएट हो जाता है कि यह ससपिशियन अराउस हो जाता है कि यह एक अलग मैकेनिज्म द्वारा जेनेरेट किया गया था। <ref name="Hawkins 1980"/> | ||
*अनोमली डेटा के | *अनोमली डेटा के उदाहरण या कलेक्शन हैं जो डेटा सेट में बहुत कम होते हैं और जिनके फीचर सिग्नीफिकेंट डेटा से काफी भिन्न होती हैं। | ||
* आउटलायर एक ऑब्जरवेशन (या ऑब्जरवेशन का उपसमूह) है जो डेटा के उस सेट के शेष भाग के साथ इन्कन्सीस्टेन्ट प्रतीत होता है। <ref name="Outliers in statistical data" /> | * आउटलायर एक ऑब्जरवेशन (या ऑब्जरवेशन का उपसमूह) है जो डेटा के उस सेट के शेष भाग के साथ इन्कन्सीस्टेन्ट प्रतीत होता है। <ref name="Outliers in statistical data" /> | ||
*अनोमली एक पॉइंट या पॉइंट का कलेक्शन है जो सुविधाओं के मल्टी-डायमेंशनल स्थान में अन्य पॉइंट से रिलेटिवली डिस्टेंट है। | *अनोमली एक पॉइंट या पॉइंट का कलेक्शन है जो सुविधाओं के मल्टी-डायमेंशनल स्थान में अन्य पॉइंट से रिलेटिवली डिस्टेंट है। | ||
* अनोमली डेटा में ऐसे पैटर्न हैं जो नॉर्मल बिहेवियर की अच्छी तरह से | * अनोमली डेटा में ऐसे पैटर्न हैं जो नॉर्मल बिहेवियर की अच्छी तरह से विस्तारित नोशन के अनुरूप नहीं हैं। <ref name="ChandolaSurvey" /> | ||
* मान लीजिए T एक अविभाज्य गॉसियन वितरण से ऑब्जरवेशन है और O, T से एक पॉइंट है। तब O के लिए z-स्कोर पूर्व-चयनित सीमा से अधिक है यदि और केवल यदि O एक आउटलायर है। | * मान लीजिए T एक अविभाज्य गॉसियन वितरण से ऑब्जरवेशन है और O, T से एक पॉइंट है। तब O के लिए z-स्कोर पूर्व-चयनित सीमा से अधिक है यदि और केवल यदि O एक आउटलायर है। | ||
== एप्लीकेशन == | == एप्लीकेशन == | ||
अनोमली डिटेक्शन बहुत बड़ी नंबर और डिफरेंट डोमेन में लागू होता है, और यह अनसुपरवाइज़ड मशीन लर्निंग का एक | अनोमली डिटेक्शन बहुत बड़ी नंबर और डिफरेंट डोमेन में लागू होता है, और यह अनसुपरवाइज़ड मशीन लर्निंग का एक महत्वपूर्ण सबएरिया है। जैसे कि इसमें साइबर इन्ट्रूशन डिटेक्शन का पता लगाने, फ्रॉड डिटेक्शन, फाल्ट डिटेक्शन, सिस्टम हेल्थ मॉनिटरिंग, सेंसर नेटवर्क में इवेंट डिटेक्शन, डिटेक्टिंग इकोसिस्टम डिस्टर्बैंसेस, [[मशीन दृष्टि|मशीन विज़न]] का उपयोग करके इमेजेज में डिफेक्ट का पता लगाने, मेडिसिन डायग्नोसिस और लॉ एनफोर्समेंट में एप्लीकेशन हैं। <ref>{{cite book |last= Aggarwal |first= Charu |author-link= |date=2017 |title=बाहरी विश्लेषण|url= |location= |publisher=Springer Publishing Company, Incorporated |page= |isbn= 978-3319475776}}</ref> | ||
1986 में डोरोथी ई. डेनिंग द्वारा इन्ट्रूशन डिटेक्शन वाले सिस्टम (आईडीएस) के लिए अनोमली डिटेक्शन का प्रस्ताव दिया गया था। <ref>{{cite journal | last1 = Denning | first1 = D. E. | author-link1 = Dorothy E. Denning| doi = 10.1109/TSE.1987.232894 | title = एक घुसपैठ-पहचान मॉडल| journal = [[IEEE Transactions on Software Engineering]]| issue = 2 | pages = 222–232 | year = 1987 | url = http://apps.dtic.mil/dtic/tr/fulltext/u2/a484998.pdf| archive-url = https://web.archive.org/web/20150622044937/http://www.dtic.mil/dtic/tr/fulltext/u2/a484998.pdf| url-status = live| archive-date = June 22, 2015| citeseerx=10.1.1.102.5127 | volume=SE-13| s2cid = 10028835 }}</ref> आईडीएस के लिए अनोमली डिटेक्शन सामान्यतः थ्रेसहोल्ड और आंकड़ों के साथ पूरा किया जाता है, लेकिन [[सॉफ्ट कंप्यूटिंग]] और इंडक्टिव लर्निंग के साथ भी किया जा सकता है। <ref>{{cite book | last1 = Teng | first1 = H. S. | last2 = Chen | first2 = K. | last3 = Lu | first3 = S. C. | title = Proceedings. 1990 IEEE Computer Society Symposium on Research in Security and Privacy | chapter = Adaptive real-time anomaly detection using inductively generated sequential patterns | doi = 10.1109/RISP.1990.63857 | pages = 278–284| year = 1990 | isbn = 978-0-8186-2060-7 | s2cid = 35632142 | url = http://www.cs.unc.edu/~jeffay/courses/nidsS05/ai/Teng-AdaptiveRTAnomaly-SnP90.pdf}}</ref> 1999 तक प्रपोज़ आँकड़ों के प्रकारों में यूजर के प्रोफाइल, वर्कस्टेशन, नेटवर्क, रिमोट होस्ट, यूजर के ग्रुप और फ्रीक्वेंसी, मीन्स, वैरिएंसेस, कोवैरियन्स और स्टैन्डर्ड डेविएशनों पर बेस्ड कार्यक्रम | 1986 में डोरोथी ई. डेनिंग द्वारा इन्ट्रूशन डिटेक्शन वाले सिस्टम (आईडीएस) के लिए अनोमली डिटेक्शन का प्रस्ताव दिया गया था। <ref>{{cite journal | last1 = Denning | first1 = D. E. | author-link1 = Dorothy E. Denning| doi = 10.1109/TSE.1987.232894 | title = एक घुसपैठ-पहचान मॉडल| journal = [[IEEE Transactions on Software Engineering]]| issue = 2 | pages = 222–232 | year = 1987 | url = http://apps.dtic.mil/dtic/tr/fulltext/u2/a484998.pdf| archive-url = https://web.archive.org/web/20150622044937/http://www.dtic.mil/dtic/tr/fulltext/u2/a484998.pdf| url-status = live| archive-date = June 22, 2015| citeseerx=10.1.1.102.5127 | volume=SE-13| s2cid = 10028835 }}</ref> आईडीएस के लिए अनोमली डिटेक्शन सामान्यतः थ्रेसहोल्ड और आंकड़ों के साथ पूरा किया जाता है, लेकिन [[सॉफ्ट कंप्यूटिंग]] और इंडक्टिव लर्निंग के साथ भी किया जा सकता है। <ref>{{cite book | last1 = Teng | first1 = H. S. | last2 = Chen | first2 = K. | last3 = Lu | first3 = S. C. | title = Proceedings. 1990 IEEE Computer Society Symposium on Research in Security and Privacy | chapter = Adaptive real-time anomaly detection using inductively generated sequential patterns | doi = 10.1109/RISP.1990.63857 | pages = 278–284| year = 1990 | isbn = 978-0-8186-2060-7 | s2cid = 35632142 | url = http://www.cs.unc.edu/~jeffay/courses/nidsS05/ai/Teng-AdaptiveRTAnomaly-SnP90.pdf}}</ref> 1999 तक प्रपोज़ आँकड़ों के प्रकारों में यूजर के प्रोफाइल, वर्कस्टेशन, नेटवर्क, रिमोट होस्ट, यूजर के ग्रुप और फ्रीक्वेंसी, मीन्स, वैरिएंसेस, कोवैरियन्स और स्टैन्डर्ड डेविएशनों पर बेस्ड कार्यक्रम सम्मिलित थे। <ref>{{cite journal | last1 = Jones | first1 = Anita K. | last2 = Sielken | first2 = Robert S. | title = Computer System Intrusion Detection: A Survey | journal= Technical Report, Department of Computer Science, University of Virginia, Charlottesville, VA | year= 1999 | citeseerx=10.1.1.24.7802 }}</ref> इन्ट्रूशन डिटेक्शन में अनोमली डिटेक्शन का इन्ट्रूशन [[दुरुपयोग का पता लगाना|मिसयूज़ डिटेक्शन]] है। | ||
इसका उपयोग प्रायः [[डेटा प्री-प्रोसेसिंग]] में डेटासेट से इन्कन्सीस्टेन्ट डेटा को रिमूव करने के लिए किया जाता है। ऐसा कई रीज़न से किया जाता है। एनालिसिस को दूर करने के बाद मीन और स्टैन्डर्ड डेविएशन जैसे डेटा के स्टैटिक्स अधिक एक्यूरेट होते हैं, और डेटा के विज़ुअलाइज़ेशन में भी सुधार किया जा सकता है। सुपरवाइज़ड लर्निंग में, डेटासेट से इन्कन्सीस्टेन्ट डेटा को हटाने से प्रायः सिग्नीफिकेंट में स्टेटिस्टिक्स रूप से | इसका उपयोग प्रायः [[डेटा प्री-प्रोसेसिंग]] में डेटासेट से इन्कन्सीस्टेन्ट डेटा को रिमूव करने के लिए किया जाता है। ऐसा कई रीज़न से किया जाता है। एनालिसिस को दूर करने के बाद मीन और स्टैन्डर्ड डेविएशन जैसे डेटा के स्टैटिक्स अधिक एक्यूरेट होते हैं, और डेटा के विज़ुअलाइज़ेशन में भी सुधार किया जा सकता है। सुपरवाइज़ड लर्निंग में, डेटासेट से इन्कन्सीस्टेन्ट डेटा को हटाने से प्रायः सिग्नीफिकेंट में स्टेटिस्टिक्स रूप से महत्वपूर्ण वृद्धि होती है। <ref>{{cite journal | doi = 10.1109/TSMC.1976.4309523 | first = Ivan | last = Tomek| title = संपादित निकटतम-पड़ोसी नियम के साथ एक प्रयोग| journal = [[IEEE Systems, Man, and Cybernetics Society|IEEE Transactions on Systems, Man, and Cybernetics]]| volume = 6 | issue = 6 | pages = 448–452 | year = 1976 }}</ref><ref>{{cite book | last1 = Smith | first1 = M. R. | last2 = Martinez | first2 = T. | doi = 10.1109/IJCNN.2011.6033571 | chapter = Improving classification accuracy by identifying and removing instances that should be misclassified | title = The 2011 International Joint Conference on Neural Networks | pages = 2690 | year = 2011 | isbn = 978-1-4244-9635-8 | chapter-url = http://axon.cs.byu.edu/papers/smith.ijcnn2011.pdf| citeseerx = 10.1.1.221.1371 | s2cid = 5809822 }}</ref> अनोमली भी प्रायः पाए जाने वाले डेटा में सबसे महत्वपूर्ण ऑब्जरवेशन होती हैं जैसे कि इन्ट्रूशन का पता लगाना या मेडिसिन इमेजेज में अब्नोर्मलिटीज़ डिटेक्ट करते हैं। | ||
== पॉपुलर टेक्नीक == | == पॉपुलर टेक्नीक == | ||
Line 60: | Line 60: | ||
== सॉफ्टवेयर == | == सॉफ्टवेयर == | ||
*ईएलकेआई एक ओपन-सोर्स जावा डेटा माइनिंग टूलकिट है जिसमें कई अनोमली डिटेक्शन वाले एल्गोरिदम, साथ ही उनके लिए इंडेक्स अक्सेलरेशन | *ईएलकेआई एक ओपन-सोर्स जावा डेटा माइनिंग टूलकिट है जिसमें कई अनोमली डिटेक्शन वाले एल्गोरिदम, साथ ही उनके लिए इंडेक्स अक्सेलरेशन सम्मिलित है। | ||
* | *पीवाईओडी एक ओपन-सोर्स पायथन लाइब्रेरी है जिसे स्पेशियली अनोमली डिटेक्शन के लिए डेवलप किया गया है। <ref>{{cite news |last1= Zhao |first1= Yue |last2= Nasrullah |first2= Zain |last3= Li |first3= Zheng |author-link= |date=2019 |title=Pyod: A python toolbox for scalable outlier detection |url= |location= |publisher=Journal of Machine Learning Research |page= |isbn=}}</ref> | ||
*[[स्किकिट-लर्न]] एक ओपन-सोर्स पायथन लाइब्रेरी है जिसमें बिना सुपरवाइज़ड अनोमली डिटेक्शन के लिए कुछ एल्गोरिदम | *[[स्किकिट-लर्न]] एक ओपन-सोर्स पायथन लाइब्रेरी है जिसमें बिना सुपरवाइज़ड अनोमली डिटेक्शन के लिए कुछ एल्गोरिदम सम्मिलित हैं। | ||
* [[वोल्फ्राम मैथमैटिका]] कई डेटा टाइप में बिना सुपरवाइज़ड अनोमली डिटेक्शन के लिए फंक्शनलिटी प्रदान करता है <ref>[https://reference.wolfram.com/language/ref/FindAnomalies.html] Mathematica documentation</ref> | * [[वोल्फ्राम मैथमैटिका]] कई डेटा टाइप में बिना सुपरवाइज़ड अनोमली डिटेक्शन के लिए फंक्शनलिटी प्रदान करता है <ref>[https://reference.wolfram.com/language/ref/FindAnomalies.html] Mathematica documentation</ref> | ||
Line 68: | Line 68: | ||
== डेटासेट == | == डेटासेट == | ||
* [http://www.dbs.ifi.lmu.de/research/outlier-evaluation/ अनोमली डिटेक्शन बेंचमार्क डेटा रिपॉजिटरी] लुडविग-मैक्सिमिलियंस-यूनिवर्सिटेट मुन्चेन के केयरफूली चूज़न डेटा सेट के साथ; साओ पाउलो विश्वविद्यालय में [http://lapad-web.icmc.usp.br/repositories/outlier-evaluation/ मिरर] है। | * [http://www.dbs.ifi.lmu.de/research/outlier-evaluation/ अनोमली डिटेक्शन बेंचमार्क डेटा रिपॉजिटरी] लुडविग-मैक्सिमिलियंस-यूनिवर्सिटेट मुन्चेन के केयरफूली चूज़न डेटा सेट के साथ; साओ पाउलो विश्वविद्यालय में [http://lapad-web.icmc.usp.br/repositories/outlier-evaluation/ मिरर] है। | ||
* [http://odds.cs.stoneybrook.edu/ | * [http://odds.cs.stoneybrook.edu/ ओडीडीएस] - ओडीडीएस: विभिन्न डोमेन में ग्राउंड ट्रुथ के साथ पब्लिक्ली अवेलेबल आउटलायर डिटेक्शन डेटासेट का एक बड़ा कलेक्शन। | ||
* [https://datavers.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/OPQMVF अनसुपरवाइज्ड एनोमली डिटेक्शन बेंचमार्क] हार्वर्ड डेटावर्स में: ग्राउंड ट्रुथ के साथ अनसुपरवाइज्ड एनोमली डिटेक्शन के लिए डेटासेट। | * [https://datavers.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/OPQMVF अनसुपरवाइज्ड एनोमली डिटेक्शन बेंचमार्क] हार्वर्ड डेटावर्स में: ग्राउंड ट्रुथ के साथ अनसुपरवाइज्ड एनोमली डिटेक्शन के लिए डेटासेट। | ||
* [https://researchdata.edu.au/kmash-repository-outlier-detection/1733742/ के मैश डेटा रिपॉजिटरी] रिसर्च डेटा ऑस्ट्रेलिया में ग्राउंड ट्रुथ के साथ 12,000 से अधिक अनोमली डिटेक्शन वाले डेटासेट हैं। | * [https://researchdata.edu.au/kmash-repository-outlier-detection/1733742/ के मैश डेटा रिपॉजिटरी] रिसर्च डेटा ऑस्ट्रेलिया में ग्राउंड ट्रुथ के साथ 12,000 से अधिक अनोमली डिटेक्शन वाले डेटासेट हैं। |
Revision as of 06:09, 10 August 2023
Part of a series on |
Machine learning and data mining |
---|
डाटा एनालिसिस में, अनोमली डिटेक्शन (जिसे आउटलायर डिटेक्शन और कभी-कभी नोवेल्टी डिटेक्शन भी कहा जाता है) को सामान्यतः रेयर आइटम, इवेंट या ऑब्जरवेशन की आइडेंटिफिकेशन के रूप में समझा जाता है जो मैजोरिटी डाटा से सिग्निफिकैंटली डेविएट होते हैं और नार्मल बेहेवियर की एक अच्छी तरह से विस्तारित नोशन के कन्फॉर्म नहीं होते हैं। [1] ऐसे उदाहरण किसी डिफरेंट मैकेनिज्म द्वारा उत्पन्न होने का ससपिशिअन अराउस कर सकते हैं, [2] या डेटा के उस सेट के रिमेनडर के साथ इन्कन्सीस्टेन्ट अपीयर होता है। [3]
अनोमली डिटेक्शन का उपयोग साइबर सिक्योरिटी, मेडिसिन, मशीन विज़न, स्टेटिस्टिक्स, न्यूरोसाइंस, लॉ एनफोर्समेंट और फाइनेंशियल फ्रॉड सहित कई डोमेन में किया जाता है। स्टेटिस्टिक्स एनालिसिस में हेल्प के लिए स्टार्टिंग में डेटा से क्लियर रिजेक्शन या ओमिशन के लिए एनालिसिस की खोज की गई थी, उदाहरण के लिए मीन या स्टैन्डर्ड डेविएशन की गणना करने के लिए की गई थी। उन्हें रैखिक प्रतिगमन जैसे मॉडलों से बेहतर प्रेडिक्शन के लिए भी हटा दिया गया था, और हाल ही में उनका रिमूवल मशीन लर्निंग एल्गोरिदम के परफॉरमेंस में हेल्प करता है। हालाँकि, कई ऍप्लिकेशन्स में अनोमालिस स्वयं रुचिकर होती हैं और संपूर्ण डेटा सेट में सबसे अधिक वांछित ऑब्जरवेशन होती हैं, जिन्हें डिटेक्शनने और नॉइज़ या इर्रेलेवेंट आउटलेर्स से सेपरेट करने की आवश्यकता होती है।
अनोमली डिटेक्शन की टेक्नीकों की तीन ब्रॉड केटेगरी उपस्थित हैं। [1] सुपरवाइज़ड अनोमली डिटेक्शन वाली टेक्नीकों के लिए एक डेटा सेट की आवश्यकता होती है जिसे नॉर्मल और अबनॉर्मल रूप में लेबल किया गया है और इसमें एक क्लासिफायरियर को ट्रेनिंग करना सम्मिलित है। हालाँकि, लेबल किए गए डेटा की नॉर्मल अनअवेलेबिलिटी और क्लास की इन्हेरेंट अनबैलेंस्ड नेचर के कारण अनोमली डिटेक्शन में इस एप्रोच का उपयोग संभवतः कभी किया जाता है। सेमि-सुपरवाइज़ड अनोमली डिटेक्शन वाली टेक्नीक मानती हैं कि डेटा के कुछ हिस्से को लेबल किया गया है। यह नॉर्मल या अबनॉर्मल डेटा का कोई भी कॉम्बिनेशन हो सकता है, लेकिन अधिकतर टेक्नीक किसी दिए गए नॉर्मल प्रलर्निंग डेटा सेट से नॉर्मल बिहेवियर को रिप्रेजेंट करने वाला एक मॉडल बनाती हैं, और फिर एक ट्रेनिंग उदाहरण उत्पन्न होने की संभावना का टेस्ट करती हैं। अनसुपरवाइज़ड अनोमली डिटेक्शन वाली टेक्नीक मानती हैं कि डेटा अनलेबल है और उनके वाइडर और रिलेवेंट एप्लीकेशन के कारण अब तक सबसे अधिक उपयोग किया जाता है।
परिभाषा
किसी अनोमली को डिफाइन करने के लिए स्टेटिस्टिक्स और कंप्यूटर साइंस कम्युनिटी में कई एटेम्पट किए गए हैं। सबसे अधिक प्रीवलेंट वन में सम्मिलित हैं:
- आउटलायर वह ऑब्जरवेशन है जो अन्य ऑब्जरवेशन से इतना अधिक डेविएट हो जाता है कि यह ससपिशियन अराउस हो जाता है कि यह एक अलग मैकेनिज्म द्वारा जेनेरेट किया गया था। [2]
- अनोमली डेटा के उदाहरण या कलेक्शन हैं जो डेटा सेट में बहुत कम होते हैं और जिनके फीचर सिग्नीफिकेंट डेटा से काफी भिन्न होती हैं।
- आउटलायर एक ऑब्जरवेशन (या ऑब्जरवेशन का उपसमूह) है जो डेटा के उस सेट के शेष भाग के साथ इन्कन्सीस्टेन्ट प्रतीत होता है। [3]
- अनोमली एक पॉइंट या पॉइंट का कलेक्शन है जो सुविधाओं के मल्टी-डायमेंशनल स्थान में अन्य पॉइंट से रिलेटिवली डिस्टेंट है।
- अनोमली डेटा में ऐसे पैटर्न हैं जो नॉर्मल बिहेवियर की अच्छी तरह से विस्तारित नोशन के अनुरूप नहीं हैं। [1]
- मान लीजिए T एक अविभाज्य गॉसियन वितरण से ऑब्जरवेशन है और O, T से एक पॉइंट है। तब O के लिए z-स्कोर पूर्व-चयनित सीमा से अधिक है यदि और केवल यदि O एक आउटलायर है।
एप्लीकेशन
अनोमली डिटेक्शन बहुत बड़ी नंबर और डिफरेंट डोमेन में लागू होता है, और यह अनसुपरवाइज़ड मशीन लर्निंग का एक महत्वपूर्ण सबएरिया है। जैसे कि इसमें साइबर इन्ट्रूशन डिटेक्शन का पता लगाने, फ्रॉड डिटेक्शन, फाल्ट डिटेक्शन, सिस्टम हेल्थ मॉनिटरिंग, सेंसर नेटवर्क में इवेंट डिटेक्शन, डिटेक्टिंग इकोसिस्टम डिस्टर्बैंसेस, मशीन विज़न का उपयोग करके इमेजेज में डिफेक्ट का पता लगाने, मेडिसिन डायग्नोसिस और लॉ एनफोर्समेंट में एप्लीकेशन हैं। [4]
1986 में डोरोथी ई. डेनिंग द्वारा इन्ट्रूशन डिटेक्शन वाले सिस्टम (आईडीएस) के लिए अनोमली डिटेक्शन का प्रस्ताव दिया गया था। [5] आईडीएस के लिए अनोमली डिटेक्शन सामान्यतः थ्रेसहोल्ड और आंकड़ों के साथ पूरा किया जाता है, लेकिन सॉफ्ट कंप्यूटिंग और इंडक्टिव लर्निंग के साथ भी किया जा सकता है। [6] 1999 तक प्रपोज़ आँकड़ों के प्रकारों में यूजर के प्रोफाइल, वर्कस्टेशन, नेटवर्क, रिमोट होस्ट, यूजर के ग्रुप और फ्रीक्वेंसी, मीन्स, वैरिएंसेस, कोवैरियन्स और स्टैन्डर्ड डेविएशनों पर बेस्ड कार्यक्रम सम्मिलित थे। [7] इन्ट्रूशन डिटेक्शन में अनोमली डिटेक्शन का इन्ट्रूशन मिसयूज़ डिटेक्शन है।
इसका उपयोग प्रायः डेटा प्री-प्रोसेसिंग में डेटासेट से इन्कन्सीस्टेन्ट डेटा को रिमूव करने के लिए किया जाता है। ऐसा कई रीज़न से किया जाता है। एनालिसिस को दूर करने के बाद मीन और स्टैन्डर्ड डेविएशन जैसे डेटा के स्टैटिक्स अधिक एक्यूरेट होते हैं, और डेटा के विज़ुअलाइज़ेशन में भी सुधार किया जा सकता है। सुपरवाइज़ड लर्निंग में, डेटासेट से इन्कन्सीस्टेन्ट डेटा को हटाने से प्रायः सिग्नीफिकेंट में स्टेटिस्टिक्स रूप से महत्वपूर्ण वृद्धि होती है। [8][9] अनोमली भी प्रायः पाए जाने वाले डेटा में सबसे महत्वपूर्ण ऑब्जरवेशन होती हैं जैसे कि इन्ट्रूशन का पता लगाना या मेडिसिन इमेजेज में अब्नोर्मलिटीज़ डिटेक्ट करते हैं।
पॉपुलर टेक्नीक
साहित्य में अनोमली डिटेक्शन की कई टेक्नीक प्रपोज़ की गई हैं। [1][10] कुछ पॉपुलर टेक्नीक हैं:
- स्टेटिस्टिक्स (स्टैन्डर्ड स्कोर, टुकी का रेंज टेस्ट और ग्रब्स का टेस्ट)
- डेंसिटी-बेस्ड टेक्नीक (K-नीयरेस्ट नेबर एल्गोरिदम, [11][12][13] लोकल आउटलायर फैक्टर, [14] आइसोलेशन फारेस्ट, [15][16] और इस अवनोशन वेरिएशन [17])
- सबस्पेस-,[18] कोरिलेशन बेस्ड [19] और टेंसर-बेस्ड [20] उच्च-आयामी डेटा के लिए आउटलायर डिटेक्शन [21]
- वन-क्लास सपोर्ट वेक्टर मशीन [22]
- रेप्लिकेटर न्यूरल नेटवर्क, [23] अनोमली डिटेक्शन, वैरिएबल ऑटोएनकोडर, [24] लॉन्ग शार्ट-टर्म मेमोरी न्यूरल नेटवर्क्स [25]
- बायेसियन नेटवर्क [23]
- हिडन मार्कोव मॉडल (एचएमएम) [23]
- मिनिमम डेटर्मिनेन्ट कोवैरीअंस [26][27]
- क्लस्टरिंग: क्लस्टर एनालिसिस-बेस्ड आउटलायर डिटेक्शन [28][29]
- एसोसिएशन रूल्स फ्रीक्वेंट आइटमसेट डेविएशन
- फ़ज़ी लॉजिक-बेस्ड आउटलायर डिटेक्शन
- रैंडम सबस्पेस मेथड का उपयोग करके एन्सेम्बल टेक्नीक, [30][31] स्कोर नोर्मलाइजेशन [32][33] और डिफरेंट सोर्सेज ऑफ़ डाइवर्सिटी [34][35]
विधियों का परफॉरमेंस डेटा सेट और पैरामीटर पर निर्भर करता है, और कई डेटा सेटों और पैरामीटर के कमपैरीजन में विधियों का दूसरे के कमपैरीजन में बहुत कम व्यवस्थित लाभ होता है। [36][37]
एक्सप्लेनेबल अनोमली डिटेक्शन
ऊपर डिसकस किये गए कई मेथड केवल एक अनोमली स्कोर प्रेडिक्शन उत्पन्न करती हैं, जिसे प्रायः यूजर को कम डेटा डेंसिटी (या नेबर डेंसिटी के कमपैरीजन में अपेक्षाकृत कम डेंसिटी) के रीजन में होने वाले पॉइंट के रूप में समझाया जा सकता है। एक्सप्लेनेबल आर्टिफीशियल इंटेलिजेंस में, यूजर हायर एक्सप्लेनेबिलिटी वाले मेथड की मांग करते हैं। कुछ मेथड अधिक डिटेल्ड एक्सप्लनेशन अलाव करता है:
- सबस्पेस आउटलायर डिग्री (एसओडी) [18] उन ऐट्रिब्यूट्स की डिटेक्शन करता है जहां एक सैंपल नॉर्मल है, और उन ऐट्रिब्यूट्स की डिटेक्शन करता है जिनमें सैंपल एक्सपेक्टेड से डेविएट होता है।
- कोरिलेशन आउटलायर प्रोबबिलिटीज़ (सीओपी) [19] एक एरर वेक्टर की गणना करें कि एक सैंपल पॉइंट एक्सपेक्टेड लोकेशन से कैसे डेविएट होता है, जिसे एक काउंटर फैकट्यूअल एक्सप्लनेशन के रूप में एक्सप्लेन किया जा सकता है: यदि सैंपल उस स्थान पर ले जाया गया तो वह नॉर्मल होगा।
सॉफ्टवेयर
- ईएलकेआई एक ओपन-सोर्स जावा डेटा माइनिंग टूलकिट है जिसमें कई अनोमली डिटेक्शन वाले एल्गोरिदम, साथ ही उनके लिए इंडेक्स अक्सेलरेशन सम्मिलित है।
- पीवाईओडी एक ओपन-सोर्स पायथन लाइब्रेरी है जिसे स्पेशियली अनोमली डिटेक्शन के लिए डेवलप किया गया है। [38]
- स्किकिट-लर्न एक ओपन-सोर्स पायथन लाइब्रेरी है जिसमें बिना सुपरवाइज़ड अनोमली डिटेक्शन के लिए कुछ एल्गोरिदम सम्मिलित हैं।
- वोल्फ्राम मैथमैटिका कई डेटा टाइप में बिना सुपरवाइज़ड अनोमली डिटेक्शन के लिए फंक्शनलिटी प्रदान करता है [39]
डेटासेट
- अनोमली डिटेक्शन बेंचमार्क डेटा रिपॉजिटरी लुडविग-मैक्सिमिलियंस-यूनिवर्सिटेट मुन्चेन के केयरफूली चूज़न डेटा सेट के साथ; साओ पाउलो विश्वविद्यालय में मिरर है।
- ओडीडीएस - ओडीडीएस: विभिन्न डोमेन में ग्राउंड ट्रुथ के साथ पब्लिक्ली अवेलेबल आउटलायर डिटेक्शन डेटासेट का एक बड़ा कलेक्शन।
- अनसुपरवाइज्ड एनोमली डिटेक्शन बेंचमार्क हार्वर्ड डेटावर्स में: ग्राउंड ट्रुथ के साथ अनसुपरवाइज्ड एनोमली डिटेक्शन के लिए डेटासेट।
- के मैश डेटा रिपॉजिटरी रिसर्च डेटा ऑस्ट्रेलिया में ग्राउंड ट्रुथ के साथ 12,000 से अधिक अनोमली डिटेक्शन वाले डेटासेट हैं।
यह भी देखें
संदर्भ
- ↑ 1.0 1.1 1.2 1.3 Chandola, V.; Banerjee, A.; Kumar, V. (2009). "Anomaly detection: A survey". ACM Computing Surveys. 41 (3): 1–58. doi:10.1145/1541880.1541882. S2CID 207172599.
- ↑ 2.0 2.1 Hawkins, Douglas M. (1980). आउटलेर्स की पहचान. Chapman and Hall London; New York.
- ↑ 3.0 3.1 Barnett, Vic; Lewis, Lewis (1978). सांख्यिकीय डेटा में आउटलेर्स. John Wiley & Sons Ltd.
- ↑ Aggarwal, Charu (2017). बाहरी विश्लेषण. Springer Publishing Company, Incorporated. ISBN 978-3319475776.
- ↑ Denning, D. E. (1987). "एक घुसपैठ-पहचान मॉडल" (PDF). IEEE Transactions on Software Engineering. SE-13 (2): 222–232. CiteSeerX 10.1.1.102.5127. doi:10.1109/TSE.1987.232894. S2CID 10028835. Archived (PDF) from the original on June 22, 2015.
- ↑ Teng, H. S.; Chen, K.; Lu, S. C. (1990). "Adaptive real-time anomaly detection using inductively generated sequential patterns". Proceedings. 1990 IEEE Computer Society Symposium on Research in Security and Privacy (PDF). pp. 278–284. doi:10.1109/RISP.1990.63857. ISBN 978-0-8186-2060-7. S2CID 35632142.
- ↑ Jones, Anita K.; Sielken, Robert S. (1999). "Computer System Intrusion Detection: A Survey". Technical Report, Department of Computer Science, University of Virginia, Charlottesville, VA. CiteSeerX 10.1.1.24.7802.
- ↑ Tomek, Ivan (1976). "संपादित निकटतम-पड़ोसी नियम के साथ एक प्रयोग". IEEE Transactions on Systems, Man, and Cybernetics. 6 (6): 448–452. doi:10.1109/TSMC.1976.4309523.
- ↑ Smith, M. R.; Martinez, T. (2011). "Improving classification accuracy by identifying and removing instances that should be misclassified" (PDF). The 2011 International Joint Conference on Neural Networks. p. 2690. CiteSeerX 10.1.1.221.1371. doi:10.1109/IJCNN.2011.6033571. ISBN 978-1-4244-9635-8. S2CID 5809822.
- ↑ Zimek, Arthur; Filzmoser, Peter (2018). "There and back again: Outlier detection between statistical reasoning and data mining algorithms" (PDF). Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery. 8 (6): e1280. doi:10.1002/widm.1280. ISSN 1942-4787. S2CID 53305944.
- ↑ Knorr, E. M.; Ng, R. T.; Tucakov, V. (2000). "Distance-based outliers: Algorithms and applications". The VLDB Journal the International Journal on Very Large Data Bases. 8 (3–4): 237–253. CiteSeerX 10.1.1.43.1842. doi:10.1007/s007780050006. S2CID 11707259.
- ↑ Ramaswamy, S.; Rastogi, R.; Shim, K. (2000). बड़े डेटा सेट से आउटलेर खनन के लिए कुशल एल्गोरिदम. Proceedings of the 2000 ACM SIGMOD international conference on Management of data – SIGMOD '00. p. 427. doi:10.1145/342009.335437. ISBN 1-58113-217-4.
- ↑ Angiulli, F.; Pizzuti, C. (2002). उच्च आयामी स्थानों में तेजी से बाहरी जांच. Principles of Data Mining and Knowledge Discovery. Lecture Notes in Computer Science. Vol. 2431. p. 15. doi:10.1007/3-540-45681-3_2. ISBN 978-3-540-44037-6.
- ↑ Breunig, M. M.; Kriegel, H.-P.; Ng, R. T.; Sander, J. (2000). LOF: Identifying Density-based Local Outliers (PDF). Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data. SIGMOD. pp. 93–104. doi:10.1145/335191.335388. ISBN 1-58113-217-4.
- ↑ Liu, Fei Tony; Ting, Kai Ming; Zhou, Zhi-Hua (December 2008). "Isolation Forest". 2008 Eighth IEEE International Conference on Data Mining (in English). pp. 413–422. doi:10.1109/ICDM.2008.17. ISBN 9780769535029. S2CID 6505449.
- ↑ Liu, Fei Tony; Ting, Kai Ming; Zhou, Zhi-Hua (March 2012). "अलगाव-आधारित विसंगति का पता लगाना". ACM Transactions on Knowledge Discovery from Data (in English). 6 (1): 1–39. doi:10.1145/2133360.2133363. S2CID 207193045.
- ↑ Schubert, E.; Zimek, A.; Kriegel, H. -P. (2012). "Local outlier detection reconsidered: A generalized view on locality with applications to spatial, video, and network outlier detection". Data Mining and Knowledge Discovery. 28: 190–237. doi:10.1007/s10618-012-0300-z. S2CID 19036098.
- ↑ 18.0 18.1 Kriegel, H. P.; Kröger, P.; Schubert, E.; Zimek, A. (2009). उच्च आयामी डेटा के अक्ष-समानांतर उप-स्थानों में बाह्य जांच. Advances in Knowledge Discovery and Data Mining. Lecture Notes in Computer Science. Vol. 5476. p. 831. doi:10.1007/978-3-642-01307-2_86. ISBN 978-3-642-01306-5.
- ↑ 19.0 19.1 Kriegel, H. P.; Kroger, P.; Schubert, E.; Zimek, A. (2012). मनमाने ढंग से उन्मुख उपस्थानों में बाह्य जांच. 2012 IEEE 12th International Conference on Data Mining. p. 379. doi:10.1109/ICDM.2012.21. ISBN 978-1-4673-4649-8.
- ↑ Fanaee-T, H.; Gama, J. (2016). "Tensor-based anomaly detection: An interdisciplinary survey". Knowledge-Based Systems. 98: 130–147. doi:10.1016/j.knosys.2016.01.027. S2CID 16368060.
- ↑ Zimek, A.; Schubert, E.; Kriegel, H.-P. (2012). "उच्च-आयामी संख्यात्मक डेटा में अपर्यवेक्षित बाहरी पहचान पर एक सर्वेक्षण". Statistical Analysis and Data Mining. 5 (5): 363–387. doi:10.1002/sam.11161. S2CID 6724536.
- ↑ Schölkopf, B.; Platt, J. C.; Shawe-Taylor, J.; Smola, A. J.; Williamson, R. C. (2001). "उच्च-आयामी वितरण के समर्थन का अनुमान लगाना". Neural Computation. 13 (7): 1443–71. CiteSeerX 10.1.1.4.4106. doi:10.1162/089976601750264965. PMID 11440593. S2CID 2110475.
- ↑ 23.0 23.1 23.2 Hawkins, Simon; He, Hongxing; Williams, Graham; Baxter, Rohan (2002). "Outlier Detection Using Replicator Neural Networks". डेटा वेयरहाउसिंग और नॉलेज डिस्कवरी. Lecture Notes in Computer Science. Vol. 2454. pp. 170–180. CiteSeerX 10.1.1.12.3366. doi:10.1007/3-540-46145-0_17. ISBN 978-3-540-44123-6.
- ↑ J. An and S. Cho, "Variational autoencoder based anomaly detection using reconstruction probability", 2015.
- ↑ Malhotra, Pankaj; Vig, Lovekesh; Shroff, Gautman; Agarwal, Puneet (22–24 April 2015). समय श्रृंखला में विसंगति का पता लगाने के लिए दीर्घकालिक अल्पकालिक मेमोरी नेटवर्क. European Symposium on Artificial Neural Networks, Computational Intelligence and Machine Learning (in English). Bruges (Belgium).
- ↑ Hubert, Mia; Debruyne, Michiel; Rousseeuw, Peter J. (2018). "न्यूनतम सहप्रसरण निर्धारक और विस्तार". WIREs Computational Statistics (in English). 10 (3). doi:10.1002/wics.1421. ISSN 1939-5108. S2CID 67227041.
- ↑ Hubert, Mia; Debruyne, Michiel (2010). "न्यूनतम सहप्रसरण निर्धारक". WIREs Computational Statistics (in English). 2 (1): 36–43. doi:10.1002/wics.61. ISSN 1939-0068. S2CID 123086172.
- ↑ He, Z.; Xu, X.; Deng, S. (2003). "क्लस्टर-आधारित स्थानीय आउटलेर्स की खोज करना". Pattern Recognition Letters. 24 (9–10): 1641–1650. Bibcode:2003PaReL..24.1641H. CiteSeerX 10.1.1.20.4242. doi:10.1016/S0167-8655(03)00003-5.
- ↑ Campello, R. J. G. B.; Moulavi, D.; Zimek, A.; Sander, J. (2015). "Hierarchical Density Estimates for Data Clustering, Visualization, and Outlier Detection". ACM Transactions on Knowledge Discovery from Data. 10 (1): 5:1–51. doi:10.1145/2733381. S2CID 2887636.
- ↑ Lazarevic, A.; Kumar, V. (2005). बाहरी पहचान के लिए फ़ीचर बैगिंग. pp. 157–166. CiteSeerX 10.1.1.399.425. doi:10.1145/1081870.1081891. ISBN 978-1-59593-135-1. S2CID 2054204.
{{cite book}}
:|journal=
ignored (help) - ↑ Nguyen, H. V.; Ang, H. H.; Gopalkrishnan, V. (2010). यादृच्छिक उपस्थानों पर विषम डिटेक्टरों के समूह के साथ खनन आउटलेयर. Database Systems for Advanced Applications. Lecture Notes in Computer Science. Vol. 5981. p. 368. doi:10.1007/978-3-642-12026-8_29. ISBN 978-3-642-12025-1.
- ↑ Kriegel, H. P.; Kröger, P.; Schubert, E.; Zimek, A. (2011). बाहरी स्कोरों की व्याख्या करना और उन्हें एकीकृत करना. Proceedings of the 2011 SIAM International Conference on Data Mining. pp. 13–24. CiteSeerX 10.1.1.232.2719. doi:10.1137/1.9781611972818.2. ISBN 978-0-89871-992-5.
- ↑ Schubert, E.; Wojdanowski, R.; Zimek, A.; Kriegel, H. P. (2012). बाहरी रैंकिंग और बाहरी स्कोर के मूल्यांकन पर. Proceedings of the 2012 SIAM International Conference on Data Mining. pp. 1047–1058. doi:10.1137/1.9781611972825.90. ISBN 978-1-61197-232-0.
- ↑ Zimek, A.; Campello, R. J. G. B.; Sander, J. R. (2014). "बिना पर्यवेक्षित बाहरी पहचान के लिए समूह". ACM SIGKDD Explorations Newsletter. 15: 11–22. doi:10.1145/2594473.2594476. S2CID 8065347.
- ↑ Zimek, A.; Campello, R. J. G. B.; Sander, J. R. (2014). बाह्य पहचान संयोजनों के लिए डेटा गड़बड़ी. Proceedings of the 26th International Conference on Scientific and Statistical Database Management – SSDBM '14. p. 1. doi:10.1145/2618243.2618257. ISBN 978-1-4503-2722-0.
- ↑ Campos, Guilherme O.; Zimek, Arthur; Sander, Jörg; Campello, Ricardo J. G. B.; Micenková, Barbora; Schubert, Erich; Assent, Ira; Houle, Michael E. (2016). "On the evaluation of unsupervised outlier detection: measures, datasets, and an empirical study". Data Mining and Knowledge Discovery. 30 (4): 891. doi:10.1007/s10618-015-0444-8. ISSN 1384-5810. S2CID 1952214.
- ↑ Anomaly detection benchmark data repository of the Ludwig-Maximilians-Universität München; Mirror at University of São Paulo.
- ↑ Zhao, Yue; Nasrullah, Zain; Li, Zheng (2019). "Pyod: A python toolbox for scalable outlier detection". Journal of Machine Learning Research.
- ↑ [1] Mathematica documentation