नाइव बेयस स्पैम फ़िल्टरिंग: Difference between revisions
No edit summary |
No edit summary |
||
Line 1: | Line 1: | ||
{{Machine learning bar}} | {{Machine learning bar}} | ||
नाइव बेयस क्लासिफायर [[ई-मेल फ़िल्टरिंग]] की लोकप्रिय सांख्यिकी [[वैज्ञानिक तकनीक]] है। वे सामान्यतः [[ईमेल स्पैम]] की पहचान करने के लिए [[बैग-ऑफ-वर्ड्स मॉडल]] या बैग-ऑफ-वर्ड्स सुविधाओं का उपयोग करते हैं, जो सामान्यतः [[दस्तावेज़ वर्गीकरण]] में उपयोग किया जाता है। | नाइव बेयस क्लासिफायर [[ई-मेल फ़िल्टरिंग]] की लोकप्रिय सांख्यिकी [[वैज्ञानिक तकनीक]] है। वे सामान्यतः [[ईमेल स्पैम]] की पहचान करने के लिए [[बैग-ऑफ-वर्ड्स मॉडल]] या बैग-ऑफ-वर्ड्स सुविधाओं का उपयोग करते हैं, जो सामान्यतः [[दस्तावेज़ वर्गीकरण|टेक्स्ट वर्गीकरण]] में उपयोग किया जाता है। | ||
[[नाइव बेयस क्लासिफायरियर]] स्पैम और गैर-स्पैम ई-मेल के साथ टोकन (सामान्यतः शब्द, या कभी-कभी अन्य चीजें) के उपयोग को सहसंबंधित करके कार्य करते हैं और फिर ईमेल के स्पैम होने या न होने की संभावना की गणना करने के लिए बेयस प्रमेय का उपयोग करते हैं। | [[नाइव बेयस क्लासिफायरियर]] स्पैम और गैर-स्पैम ई-मेल के साथ टोकन (सामान्यतः शब्द, या कभी-कभी अन्य चीजें) के उपयोग को सहसंबंधित करके कार्य करते हैं और फिर ईमेल के स्पैम होने या न होने की संभावना की गणना करने के लिए बेयस प्रमेय का उपयोग करते हैं। | ||
नाइव बेयस स्पैम फ़िल्टरिंग स्पैम से निपटने के लिए आधारभूत तकनीक है जो व्यक्तिगत उपयोगकर्ताओं की ईमेल आवश्यकताओं के अनुरूप हो सकती है और कम लाई धनात्मक स्पैम पहचान दर दे सकती है जो सामान्यतः उपयोगकर्ताओं के लिए स्वीकार्य होती है। यह स्पैम फ़िल्टरिंग करने के सबसे पुराने विधियों में से है, जिसकी जड़ें 1990 के दशक में थीं। | नाइव बेयस स्पैम फ़िल्टरिंग स्पैम से निपटने के लिए आधारभूत तकनीक है जो व्यक्तिगत उपयोगकर्ताओं की ईमेल आवश्यकताओं के अनुरूप हो सकती है और कम लाई धनात्मक स्पैम पहचान दर दे सकती है जो सामान्यतः उपयोगकर्ताओं के लिए स्वीकार्य होती है। यह स्पैम फ़िल्टरिंग करने के सबसे पुराने विधियों में से है, जिसकी जड़ें 1990 के दशक में थीं। | ||
==इतिहास == | ==इतिहास == | ||
बायेसियन एल्गोरिदम का उपयोग 1996 की प्रारंभ में ईमेल फ़िल्टरिंग के लिए किया गया था। चूँकि बाद में बायेसियन फ़िल्टर लोकप्रिय नहीं हुए, किन्तु अवांछित ईमेल की बढ़ती समस्या का समाधान करने के लिए 1998 में | बायेसियन एल्गोरिदम का उपयोग 1996 की प्रारंभ में ईमेल फ़िल्टरिंग के लिए किया गया था। चूँकि बाद में बायेसियन फ़िल्टर लोकप्रिय नहीं हुए, किन्तु अवांछित ईमेल की बढ़ती समस्या का समाधान करने के लिए 1998 में अनेक प्रोग्राम जारी किए गए थे।<ref>{{cite book|title=Spam: A Shadow History of the Internet|last=Brunton|first=Finn|publisher=[[MIT Press]]|year=2013|isbn=9780262018876|page=136|url=https://books.google.com/books?id=QF7EjCRg5CIC&pg=PA136|access-date=2017-09-13|archive-url=https://web.archive.org/web/20190323133300/https://books.google.com/books?id=QF7EjCRg5CIC&pg=PA136|archive-date=2019-03-23|url-status=live}}</ref> बायेसियन स्पैम फ़िल्टरिंग पर पहला विद्वतापूर्ण प्रकाशन सहामी एट अल द्वारा किया गया था। 1998 में <ref>{{cite web|url=http://robotics.stanford.edu/users/sahami/papers-dir/spam.pdf|author1=M. Sahami|author2=S. Dumais|author3=D. Heckerman|author4=E. Horvitz|title=जंक ई-मेल को फ़िल्टर करने के लिए एक बायेसियन दृष्टिकोण|publisher=AAAI'98 Workshop on Learning for Text Categorization|year=1998|access-date=2007-08-15|archive-url=https://web.archive.org/web/20070927171816/http://robotics.stanford.edu/users/sahami/papers-dir/spam.pdf|archive-date=2007-09-27|url-status=live}}</ref> इसके तुरंत बाद उस कार्य को वाणिज्यिक स्पैम फ़िल्टर में तैनात कर दिया गया था। | ||
मूलभूत तकनीक के वेरिएंट को | मूलभूत तकनीक के वेरिएंट को अनेक प्रयोग कार्यों और वाणिज्यिक [[कंप्यूटर सॉफ्टवेयर]] उत्पादों में प्रयुक्त किया गया है।<ref>{{cite web|url=http://kb.mozillazine.org/Junk_Mail_Controls|title=जंक मेल नियंत्रण|publisher=MozillaZine|date=November 2009|access-date=2010-01-16|archive-url=https://web.archive.org/web/20121023211104/http://kb.mozillazine.org/Junk_Mail_Controls|archive-date=2012-10-23|url-status=live}}</ref> अनेक आधुनिक मेल [[क्लाइंट (कंप्यूटिंग)]] बायेसियन स्पैम फ़िल्टरिंग प्रयुक्त करते हैं। उपयोगकर्ता भिन्न ई-मेल फ़िल्टरिंग भी स्थापित कर सकते हैं। [[ सर्वर साइड |सर्वर साइड]] ईमेल फ़िल्टर, जैसे [[DSPAM|डीएसपीएएम]], [[SpamAssassin|अपसंदेश]],<ref name=twsSep14yy>{{cite web | ||
|title = Installation | |title = Installation | ||
|publisher = Ubuntu manuals | |publisher = Ubuntu manuals | ||
Line 26: | Line 26: | ||
|url= http://spambayes.sourceforge.net/background.html | |url= http://spambayes.sourceforge.net/background.html | ||
|access-date= 2010-09-18 | |access-date= 2010-09-18 | ||
| archive-url= https://web.archive.org/web/20100906031341/http://spambayes.sourceforge.net/background.html| archive-date= 6 September 2010 | url-status= live}}</ref> [[बोगो फ़िल्टर]] और [[एंटी-स्पैम एसएमटीपी प्रॉक्सी]], बायेसियन स्पैम फ़िल्टरिंग तकनीकों का उपयोग करते हैं, और कार्यक्षमता कभी-कभी [[ डाक सर्वर |डाक सर्वर]] सॉफ़्टवेयर के | | archive-url= https://web.archive.org/web/20100906031341/http://spambayes.sourceforge.net/background.html| archive-date= 6 September 2010 | url-status= live}}</ref> [[बोगो फ़िल्टर]] और [[एंटी-स्पैम एसएमटीपी प्रॉक्सी]], बायेसियन स्पैम फ़िल्टरिंग तकनीकों का उपयोग करते हैं, और कार्यक्षमता कभी-कभी [[ डाक सर्वर |डाक सर्वर]] सॉफ़्टवेयर के अंदर ही एम्बेडेड होती है। सीआरएम114 (प्रोग्राम), जिसे अधिकांशतः बायेसियन फ़िल्टर के रूप में उद्धृत किया जाता है, जिसका उद्देश्य उत्पादन में बेयस फ़िल्टर का उपयोग करना नहीं है, किन्तु इसमें संदर्भ के लिए ″यूनिग्राम″ सुविधा सम्मिलित है।<ref>{{Cite web |url=http://crm114.sourceforge.net/docs/classify_details.txt |title=संग्रहीत प्रति|access-date=2016-07-09 |archive-url=https://web.archive.org/web/20161007063935/http://crm114.sourceforge.net/docs/classify_details.txt |archive-date=2016-10-07 |url-status=live }}</ref> | ||
==प्रक्रिया == | ==प्रक्रिया == | ||
विशेष शब्दों के स्पैम ईमेल और वैध ईमेल में होने की विशेष [[संभावना]] होती है। उदाहरण के लिए, अधिकांश ईमेल उपयोगकर्ता अधिकांशतः स्पैम ईमेल में [[वियाग्रा]] शब्द का सामना करते है, किन्तु इसे अन्य ईमेल में संभवतः ही कभी देखते है। फ़िल्टर इन संभावनाओं को पहले से नहीं जानता है, और उसे पहले प्रशिक्षित किया जाना चाहिए जिससे वह उन्हें बना सके। फ़िल्टर को प्रशिक्षित करने के लिए, उपयोगकर्ता को मैन्युअल रूप से | विशेष शब्दों के स्पैम ईमेल और वैध ईमेल में होने की विशेष [[संभावना]] होती है। उदाहरण के लिए, अधिकांश ईमेल उपयोगकर्ता अधिकांशतः स्पैम ईमेल में [[वियाग्रा]] शब्द का सामना करते है, किन्तु इसे अन्य ईमेल में संभवतः ही कभी देखते है। फ़िल्टर इन संभावनाओं को पहले से नहीं जानता है, और उसे पहले प्रशिक्षित किया जाना चाहिए जिससे वह उन्हें बना सके। और फ़िल्टर को प्रशिक्षित करने के लिए, उपयोगकर्ता को मैन्युअल रूप से निरुपित करना होगा कि नया ईमेल स्पैम है या नहीं प्रत्येक प्रशिक्षण ईमेल में सभी शब्दों के लिए, फ़िल्टर उन संभावनाओं को समायोजित करेगा कि प्रत्येक शब्द अपने डेटाबेस में स्पैम या वैध ईमेल में दिखाई देगा। उदाहरण के लिए, बायेसियन स्पैम फ़िल्टर ने सामान्यतः वियाग्रा और पुनर्वित्त शब्दों के लिए बहुत अधिक स्पैम संभावना सीखी होगी, किन्तु केवल वैध ईमेल में देखे जाने वाले शब्दों, जैसे दोस्तों और वर्ग के सदस्यों के नाम, के लिए बहुत कम स्पैम संभावना होती है। | ||
प्रशिक्षण के बाद, संभाव्यता शब्द (संभावना | प्रशिक्षण के बाद, संभाव्यता शब्द (संभावना फलन के रूप में भी जाना जाता है) का उपयोग इस संभावना की गणना करने के लिए किया जाता है कि शब्दों के विशेष सेट वाला ईमेल किसी भी श्रेणी से संबंधित है। ईमेल का प्रत्येक शब्द ईमेल की स्पैम संभावना में योगदान देता है, या केवल सबसे रोचक शब्द इस योगदान को पश्च संभाव्यता कहा जाता है और इसकी गणना बेयस प्रमेय का उपयोग करके की जाती है। फिर, ईमेल की स्पैम संभावना की गणना ईमेल के सभी शब्दों पर की जाती है, और यदि कुल निश्चित सीमा (मान लीजिए 95%) से अधिक है, जिससे फ़िल्टर ईमेल को स्पैम के रूप में चिह्नित करता है। | ||
किसी भी अन्य [[स्पैम फ़िल्टरिंग]] तकनीक की तरह, स्पैम के रूप में चिह्नित ईमेल को स्वचालित रूप से जंक ईमेल फ़ोल्डर में ले जाया जा सकता है, या सीधे हटाया भी जा सकता है। कुछ सॉफ़्टवेयर संगरोध तंत्र प्रयुक्त करते हैं जो समय सीमा परिभाषित करते हैं जिसके समय उपयोगकर्ता को सॉफ़्टवेयर के निर्णय की समीक्षा करने की अनुमति होती है। | किसी भी अन्य [[स्पैम फ़िल्टरिंग]] तकनीक की तरह, स्पैम के रूप में चिह्नित ईमेल को स्वचालित रूप से जंक ईमेल फ़ोल्डर में ले जाया जा सकता है, या सीधे हटाया भी जा सकता है। कुछ सॉफ़्टवेयर संगरोध तंत्र प्रयुक्त करते हैं जो समय सीमा परिभाषित करते हैं जिसके समय उपयोगकर्ता को सॉफ़्टवेयर के निर्णय की समीक्षा करने की अनुमति होती है। | ||
Line 39: | Line 39: | ||
==गणितीय आधार == | ==गणितीय आधार == | ||
बायेसियन [[ईमेल फ़िल्टर]] बेयस प्रमेय का उपयोग करते हैं। बेयस प्रमेय का प्रयोग स्पैम के संदर्भ में | बायेसियन [[ईमेल फ़िल्टर]] बेयस प्रमेय का उपयोग करते हैं। बेयस प्रमेय का प्रयोग स्पैम के संदर्भ में अनेक बार किया जाता है: | ||
* पहली बार, इस संभावना की गणना करने के लिए कि संदेश स्पैम है, यह जानते हुए कि इस संदेश में दिया गया शब्द दिखाई देता है; | * पहली बार, इस संभावना की गणना करने के लिए कि संदेश स्पैम है, यह जानते हुए कि इस संदेश में दिया गया शब्द दिखाई देता है; | ||
* दूसरी बार, इसके सभी शब्दों (या उनके प्रासंगिक उपसमूह) को ध्यान में रखते हुए, संदेश के स्पैम होने की संभावना की गणना करने के लिए; | * दूसरी बार, इसके सभी शब्दों (या उनके प्रासंगिक उपसमूह) को ध्यान में रखते हुए, संदेश के स्पैम होने की संभावना की गणना करने के लिए; | ||
Line 71: | Line 71: | ||
यह कार्यात्मक रूप से यह पूछने के समान है कि स्पैम संदेशों में प्रतिकृति शब्द की कितनी प्रतिशत घटनाएँ दिखाई देती हैं? | यह कार्यात्मक रूप से यह पूछने के समान है कि स्पैम संदेशों में प्रतिकृति शब्द की कितनी प्रतिशत घटनाएँ दिखाई देती हैं? | ||
इस मात्रा को प्रतिकृति शब्द की स्पैमसिटी (या स्पैमनेस) कहा जाता है, और इसकी गणना की जा सकती है। जो नंबर <math>\Pr(W|S)</math> इस सूत्र में उपयोग किए गए संदेशों को सीखने के | इस मात्रा को प्रतिकृति शब्द की स्पैमसिटी (या स्पैमनेस) कहा जाता है, और इसकी गणना की जा सकती है। जो नंबर <math>\Pr(W|S)</math> इस सूत्र में उपयोग किए गए संदेशों को सीखने के वेरिएबल ण के समय स्पैम के रूप में पहचाने गए संदेशों में प्रतिकृति वाले संदेशों की आवृत्ति का अनुमान लगाया गया है। इसी प्रकार, <math>\Pr(W|H)</math> सीखने के वेरिएबल ण के समय हैम के रूप में पहचाने गए संदेशों में प्रतिकृति वाले संदेशों की आवृत्ति का अनुमान लगाया गया है। इन अनुमानों को समझने के लिए, सीखे गए संदेशों का सेट बड़ा और पर्याप्त प्रतिनिधि होना आवश्यक है। यह भी सलाह दी जाती है कि संदेशों का सीखा हुआ सेट स्पैम और हैम के बीच पुनर्विभाजन के बारे में 50% परिकल्पना के अनुरूप हो, अर्थात कि स्पैम और हैम के डेटासेट ही आकार के होंते है।<ref>Process Software, [http://www.process.com/precisemail/bayesian_filtering.htm Introduction to Bayesian Filtering] {{Webarchive|url=https://web.archive.org/web/20120206032703/http://www.process.com/precisemail/bayesian_filtering.htm |date=2012-02-06 }}</ref> | ||
निसंदेह, प्रतिकृति शब्द की उपस्थिति के आधार पर यह निर्धारित करना कि कोई संदेश स्पैम है या हैम, त्रुटि-प्रवण है, यही कारण है कि बायेसियन स्पैम सॉफ़्टवेयर किसी संदेश के स्पैम होने की समग्र संभावना निर्धारित करने के लिए | निसंदेह, प्रतिकृति शब्द की उपस्थिति के आधार पर यह निर्धारित करना कि कोई संदेश स्पैम है या हैम, त्रुटि-प्रवण है, यही कारण है कि बायेसियन स्पैम सॉफ़्टवेयर किसी संदेश के स्पैम होने की समग्र संभावना निर्धारित करने के लिए अनेक शब्दों पर विचार करने और उनकी स्पैमिसिटी को संयोजित करने का प्रयास करता है। | ||
===व्यक्तिगत संभावनाओं का संयोजन === | ===व्यक्तिगत संभावनाओं का संयोजन === | ||
Line 81: | Line 81: | ||
जहाँ: | जहाँ: | ||
* <math>p</math> क्या संभावना है कि संदिग्ध संदेश स्पैम है; | * <math>p</math> क्या संभावना है कि संदिग्ध संदेश स्पैम है; | ||
* <math>p_1</math> संभावना | * <math>p_1</math> संभावना <math>p(W_1|S)</math> है पहला शब्द (उदाहरण के लिए प्रतिकृति) प्रकट होता है, यह देखते हुए कि संदेश स्पैम है; | ||
* <math>p_2</math> संभावना | * <math>p_2</math> संभावना <math>p(W_2|S)</math> है दूसरा शब्द (उदाहरण के लिए देखता है) प्रकट होता है, यह देखते हुए कि संदेश स्पैम है; | ||
इस सूत्र पर आधारित स्पैम फ़िल्टरिंग सॉफ़्टवेयर को कभी-कभी नैवे बेयस क्लासिफायरियर के रूप में संदर्भित किया जाता है, क्योंकि नैवे सुविधाओं के बीच सशक्त सांख्यिकीय स्वतंत्रता धारणाओं को संदर्भित करता है। परिणाम p की तुलना सामान्यतः यह तय करने के लिए दी गई सीमा से की जाती है कि संदेश स्पैम है या नहीं है। यदि p सीमा से कम है, तो संदेश को संभावित हैम माना जाता है, अन्यथा इसे संभावित स्पैम माना जाता है। | इस सूत्र पर आधारित स्पैम फ़िल्टरिंग सॉफ़्टवेयर को कभी-कभी नैवे बेयस क्लासिफायरियर के रूप में संदर्भित किया जाता है, क्योंकि नैवे सुविधाओं के बीच सशक्त सांख्यिकीय स्वतंत्रता धारणाओं को संदर्भित करता है। परिणाम p की तुलना सामान्यतः यह तय करने के लिए दी गई सीमा से की जाती है कि संदेश स्पैम है या नहीं है। यदि p सीमा से कम है, तो संदेश को संभावित हैम माना जाता है, अन्यथा इसे संभावित स्पैम माना जाता है। | ||
Line 100: | Line 100: | ||
:<math> p = \frac{1}{1 + e^\eta} </math> | :<math> p = \frac{1}{1 + e^\eta} </math> | ||
===दुर्लभ शब्दों से निपटना === | ===दुर्लभ शब्दों से निपटना === | ||
यदि कोई शब्द सीखने के | यदि कोई शब्द सीखने के वेरिएबल ण के समय कभी नहीं मिला है, जिससे सामान्य सूत्र और स्पैमिसिटी सूत्र दोनों में अंश और हर दोनों शून्य के समान हैं। सॉफ़्टवेयर ऐसे शब्दों को हटाने का निर्णय ले सकता है जिनके बारे में कोई जानकारी उपलब्ध नहीं है। | ||
सामान्यतः, सीखने के | सामान्यतः, सीखने के वेरिएबल ण के समय केवल कुछ ही बार सामने आए शब्द समस्या का कारण बनते हैं, क्योंकि उनके द्वारा प्रदान की गई जानकारी पर आँख संवृत करके विश्वास करना गलती होता है। सरल उपाय यह है कि ऐसे अविश्वसनीय शब्दों को भी ध्यान में न रखा जाता है। | ||
बेयस प्रमेय को फिर से प्रयुक्त करना, और किसी दिए गए शब्द (प्रतिकृति) वाले ईमेल के स्पैम और हैम के बीच वर्गीकरण को [[बीटा वितरण]] के साथ यादृच्छिक | बेयस प्रमेय को फिर से प्रयुक्त करना, और किसी दिए गए शब्द (प्रतिकृति) वाले ईमेल के स्पैम और हैम के बीच वर्गीकरण को [[बीटा वितरण]] के साथ यादृच्छिक वेरिएबल मानते हुए, कुछ प्रोग्राम सही संभावना का उपयोग करने का निर्णय लेते हैं: | ||
:<math>\Pr'(S|W) = \frac{s \cdot \Pr(S) + n \cdot \Pr(S|W)}{s + n }</math> | :<math>\Pr'(S|W) = \frac{s \cdot \Pr(S) + n \cdot \Pr(S|W)}{s + n }</math> | ||
Line 111: | Line 111: | ||
* <math>s</math> यह वह ताकत है जो हम आने वाले स्पैम के बारे में पृष्ठभूमि जानकारी को देते हैं; | * <math>s</math> यह वह ताकत है जो हम आने वाले स्पैम के बारे में पृष्ठभूमि जानकारी को देते हैं; | ||
* <math>\Pr(S)</math> किसी भी आने वाले संदेश के स्पैम होने की संभावना है; | * <math>\Pr(S)</math> किसी भी आने वाले संदेश के स्पैम होने की संभावना है; | ||
* <math>n</math> सीखने के | * <math>n</math> सीखने के वेरिएबल ण के समय इस शब्द के आने की संख्या है; | ||
* <math>\Pr(S|W)</math> इस शब्द की स्पैमसिटी है. | * <math>\Pr(S|W)</math> इस शब्द की स्पैमसिटी है. | ||
Line 123: | Line 123: | ||
===अन्य अनुमान=== | ===अन्य अनुमान=== | ||
प्राकृतिक शब्द जैसे , a , सम , या is (अंग्रेजी में), या अन्य भाषाओं में उनके समकक्षों को नजरअंदाज किया जा सकता है। इन्हें [[ शब्द बंद करो |शब्द]] के नाम से भी जाना जाता है। अधिक सामान्यतः, कुछ बायेसियन फ़िल्टरिंग फ़िल्टर उन सभी शब्दों को अनदेखा कर देते हैं जिनकी स्पैमिसिटी 0.5 के आगे होती है, क्योंकि वे अच्छे निर्णय में बहुत कम योगदान देते हैं। विचार किए गए शब्द वे हैं जिनकी स्पैमसिटी 0.0 (वैध संदेशों के विशिष्ट संकेत) के बगल में है, या 1.0 (स्पैम के विशिष्ट संकेत) के बगल में है। उदाहरण के लिए विधि यह हो सकती है कि जांचे गए संदेश में केवल उन्हीं दस शब्दों को रखा जाए, जिनका निरपेक्ष मान सबसे बड़ा हो |0.5 − pI| जाते है | |||
कुछ सॉफ़्टवेयर उत्पाद इस तथ्य को ध्यान में रखते हैं कि जांचे गए संदेश में दिया गया शब्द | कुछ सॉफ़्टवेयर उत्पाद इस तथ्य को ध्यान में रखते हैं कि जांचे गए संदेश में दिया गया शब्द अनेक बार दिखाई देता है,<ref>{{cite web|url=http://spamprobe.sourceforge.net/paper.html|author=Brian Burton|title=स्पैमप्रोब - बायेसियन स्पैम फ़िल्टरिंग बदलाव|year=2003|access-date=2009-01-19|archive-url=https://web.archive.org/web/20120301235828/http://spamprobe.sourceforge.net/paper.html|archive-date=2012-03-01|url-status=live}}</ref> . | ||
कुछ सॉफ़्टवेयर उत्पाद | कुछ सॉफ़्टवेयर उत्पाद भिन्न -भिन्न प्राकृतिक भाषाओं के शब्दों के अतिरिक्त पैटर्न (शब्दों के अनुक्रम) का उपयोग करते हैं।<ref>{{cite web|url=http://bnr.nuclearelephant.com/l|author=Jonathan A. Zdziarski|title=Bayesian Noise Reduction: Contextual Symmetry Logic Utilizing Pattern Consistency Analysis|year=2004}}{{dead link|date=February 2018 |bot=InternetArchiveBot |fix-attempted=yes }}</ref> उदाहरण के लिए, चार शब्दों की संदर्भ विंडो के साथ, वे वियाग्रा की स्पैमिसिटी की गणना करते हैं, इसके लिए अच्छा है, वियाग्रा की स्पैमिसिटी की गणना करने के अतिरिक्त, है, यह विधि संदर्भ के प्रति अधिक संवेदनशीलता देती है और बड़े डेटाबेस की मूल्य पर बायेसियन ध्वनि को उत्तम विधि से समाप्त करती है। | ||
===मिश्रित विधियाँ=== | ===मिश्रित विधियाँ=== | ||
सरल दृष्टिकोण का उपयोग करने के अतिरिक्त | सरल दृष्टिकोण का उपयोग करने के अतिरिक्त भिन्न -भिन्न शब्दों के लिए व्यक्तिगत संभावनाओं को संयोजित करने के अन्य विधि भी हैं। ये विधियां इनपुट डेटा के सांख्यिकीय गुणों पर बनाई गई धारणाओं से भिन्न होती हैं। इन विभिन्न परिकल्पनाओं के परिणामस्वरूप व्यक्तिगत संभावनाओं के संयोजन के लिए मौलिक रूप से भिन्न सूत्र बनते हैं। | ||
उदाहरण के लिए, यह मानते हुए कि व्यक्तिगत संभावनाएँ 2N डिग्री की स्वतंत्रता के साथ [[ची-वर्ग वितरण]] का पालन करती हैं, कोई सूत्र का उपयोग कर सकता है: | उदाहरण के लिए, यह मानते हुए कि व्यक्तिगत संभावनाएँ 2N डिग्री की स्वतंत्रता के साथ [[ची-वर्ग वितरण]] का पालन करती हैं, कोई सूत्र का उपयोग कर सकता है: | ||
Line 139: | Line 139: | ||
व्यक्तिगत संभावनाओं को [[मार्कोवियन भेदभाव|मार्कोवियन]] की तकनीकों के साथ भी जोड़ा जा सकता है। | व्यक्तिगत संभावनाओं को [[मार्कोवियन भेदभाव|मार्कोवियन]] की तकनीकों के साथ भी जोड़ा जा सकता है। | ||
==चर्चा | ==चर्चा == | ||
===लाभ=== | ===लाभ=== | ||
Line 146: | Line 146: | ||
उपयोगकर्ता को प्राप्त होने वाला स्पैम अधिकांशतः ऑनलाइन उपयोगकर्ता की गतिविधियों से संबंधित होता है। उदाहरण के लिए, हो सकता है कि किसी उपयोगकर्ता ने किसी ऑनलाइन न्यूज़लेटर की सदस्यता ली हो जिसे उपयोगकर्ता स्पैम मानता होता है। इस ऑनलाइन न्यूज़लेटर में ऐसे शब्द सम्मिलित होने की संभावना है जो सभी न्यूज़लेटर्स में समान हैं, जैसे न्यूज़लेटर का नाम और इसका मूल ईमेल पता बायेसियन स्पैम फ़िल्टर अंततः उपयोगकर्ता के विशिष्ट पैटर्न के आधार पर उच्च संभावना प्रदान करता है। | उपयोगकर्ता को प्राप्त होने वाला स्पैम अधिकांशतः ऑनलाइन उपयोगकर्ता की गतिविधियों से संबंधित होता है। उदाहरण के लिए, हो सकता है कि किसी उपयोगकर्ता ने किसी ऑनलाइन न्यूज़लेटर की सदस्यता ली हो जिसे उपयोगकर्ता स्पैम मानता होता है। इस ऑनलाइन न्यूज़लेटर में ऐसे शब्द सम्मिलित होने की संभावना है जो सभी न्यूज़लेटर्स में समान हैं, जैसे न्यूज़लेटर का नाम और इसका मूल ईमेल पता बायेसियन स्पैम फ़िल्टर अंततः उपयोगकर्ता के विशिष्ट पैटर्न के आधार पर उच्च संभावना प्रदान करता है। | ||
उपयोगकर्ता को प्राप्त वैध ई-मेल | उपयोगकर्ता को प्राप्त वैध ई-मेल भिन्न -भिन्न होते है। उदाहरण के लिए, कॉर्पोरेट वातावरण में, कंपनी का नाम और ग्राहकों या ग्राहकों के नाम का अधिकांशतः उल्लेख किया जाता है। फ़िल्टर उन नामों वाले ईमेल को कम स्पैम संभावना प्रदान करता है। | ||
संभाव्यता शब्द प्रत्येक उपयोगकर्ता के लिए अद्वितीय है और जब भी फ़िल्टर किसी ईमेल को गलत विधि से वर्गीकृत करता है तो धनात्मक प्रशिक्षण के साथ समय के साथ विकसित हो सकता है। परिणामस्वरूप, प्रशिक्षण के बाद बायेसियन स्पैम फ़िल्टरिंग स्पष्टता अधिकांशतः पूर्व-निर्धारित नियमों से उत्तम होती है। | संभाव्यता शब्द प्रत्येक उपयोगकर्ता के लिए अद्वितीय है और जब भी फ़िल्टर किसी ईमेल को गलत विधि से वर्गीकृत करता है तो धनात्मक प्रशिक्षण के साथ समय के साथ विकसित हो सकता है। परिणामस्वरूप, प्रशिक्षण के बाद बायेसियन स्पैम फ़िल्टरिंग स्पष्टता अधिकांशतः पूर्व-निर्धारित नियमों से उत्तम होती है। | ||
यह लाई | यह लाई धनात्म्क्ताओं से बचने में विशेष रूप से अच्छा प्रदर्शन कर सकता है, जहां वैध ईमेल को गलत विधि से स्पैम के रूप में वर्गीकृत किया गया है। उदाहरण के लिए, यदि ईमेल में शब्द सम्मिलित है, जिसका उपयोग अधिकांशतः एडवांस शुल्क धोखाधड़ी स्पैम में किया जाता है, तो पूर्व-परिभाषित नियम फ़िल्टर इसे पूरी तरह से अस्वीकार कर सकता है। बायेसियन फ़िल्टर नाइजीरिया शब्द को संभावित स्पैम शब्द के रूप में चिह्नित करेगा, किन्तु अन्य महत्वपूर्ण शब्दों को ध्यान में रखेगा जो सामान्यतः वैध ई-मेल का संकेत देते हैं। उदाहरण के लिए, जीवनसाथी का नाम दृढ़ता से संकेत दे सकता है कि ई-मेल स्पैम नहीं है, जो शब्द के उपयोग पर प्राप्त कर सकता है। | ||
===हानियाँ=== | ===हानियाँ=== | ||
Line 157: | Line 157: | ||
जो शब्द सामान्यतः स्पैम में बड़ी मात्रा में दिखाई देते हैं, उन्हें स्पैमर द्वारा रूपांतरित भी किया जा सकता है। उदाहरण के लिए, स्पैम संदेश में "वी!आग्रा" से बदल दिया जाता है। संदेश का प्राप्तकर्ता अभी भी बदले हुए शब्दों को पढ़ सकता है, किन्तु इनमें से प्रत्येक शब्द बायेसियन फ़िल्टर से बहुत कम मिलता है, जो इसकी सीखने की प्रक्रिया में बाधा डालता है। सामान्य नियम के रूप में, यह स्पैमिंग तकनीक बहुत अच्छी तरह से कार्य नहीं करती है, क्योंकि व्युत्पन्न शब्द सामान्य शब्दों की तरह ही फ़िल्टर द्वारा पहचाने जाते हैं।<ref>Paul Graham (2002), [http://www.paulgraham.com/spam.html A Plan for Spam] {{Webarchive|url=https://web.archive.org/web/20040404013856/http://www.paulgraham.com/spam.html |date=2004-04-04 }}</ref> | जो शब्द सामान्यतः स्पैम में बड़ी मात्रा में दिखाई देते हैं, उन्हें स्पैमर द्वारा रूपांतरित भी किया जा सकता है। उदाहरण के लिए, स्पैम संदेश में "वी!आग्रा" से बदल दिया जाता है। संदेश का प्राप्तकर्ता अभी भी बदले हुए शब्दों को पढ़ सकता है, किन्तु इनमें से प्रत्येक शब्द बायेसियन फ़िल्टर से बहुत कम मिलता है, जो इसकी सीखने की प्रक्रिया में बाधा डालता है। सामान्य नियम के रूप में, यह स्पैमिंग तकनीक बहुत अच्छी तरह से कार्य नहीं करती है, क्योंकि व्युत्पन्न शब्द सामान्य शब्दों की तरह ही फ़िल्टर द्वारा पहचाने जाते हैं।<ref>Paul Graham (2002), [http://www.paulgraham.com/spam.html A Plan for Spam] {{Webarchive|url=https://web.archive.org/web/20040404013856/http://www.paulgraham.com/spam.html |date=2004-04-04 }}</ref> | ||
बायेसियन स्पैम फ़िल्टर को हराने के लिए उपयोग की जाने वाली अन्य तकनीक टेक्स्ट को सीधे सम्मिलित या लिंक किए गए चित्रों से बदलना है। संदेश का पूरा टेक्स्ट, या उसका कुछ भाग, चित्र से बदल दिया जाता है जहाँ वही टेक्स्ट खींचा जाता है। स्पैम फ़िल्टर सामान्यतः इस तस्वीर का विश्लेषण करने में असमर्थ है, जिसमें «वियाग्रा» जैसे संवेदनशील शब्द होते है। चूँकि | बायेसियन स्पैम फ़िल्टर को हराने के लिए उपयोग की जाने वाली अन्य तकनीक टेक्स्ट को सीधे सम्मिलित या लिंक किए गए चित्रों से बदलना है। संदेश का पूरा टेक्स्ट, या उसका कुछ भाग, चित्र से बदल दिया जाता है जहाँ वही टेक्स्ट खींचा जाता है। स्पैम फ़िल्टर सामान्यतः इस तस्वीर का विश्लेषण करने में असमर्थ है, जिसमें «वियाग्रा» जैसे संवेदनशील शब्द होते है। चूँकि अनेक मेल क्लाइंट सुरक्षा कारणों से लिंक की गई इमेज्स के प्रदर्शन को अक्षम कर देते हैं, इसलिए दूर की इमेज्स के लिंक भेजने वाला स्पैमर कम लक्ष्यों तक पहुंच सकता है। साथ ही, बाइट्स में चित्र का आकार समतुल्य टेक्स्ट के आकार से बड़ा होता है, इसलिए स्पैमर को चित्रों सहित सीधे संदेश भेजने के लिए अधिक बैंडविड्थ की आवश्यकता होती है। कुछ फ़िल्टर यह तय करने में अधिक इच्छुक होते हैं कि कोई संदेश स्पैम है यदि उसमें अधिकतर ग्राफ़िकल पदार्थ है। [[Google|गूगल]] द्वारा अपने [[ जीमेल लगीं |जीमेल लगीं]] ईमेल सिस्टम में उपयोग किया जाने वाला समाधान प्रत्येक मध्य से बड़े आकार की छवि पर [[ऑप्टिकल कैरेक्टर मान्यता]] या ओसीआर (ऑप्टिकल कैरेक्टर रिकग्निशन) निष्पादित करना है, जिसमें अंदर के टेक्स्ट का विश्लेषण किया जाता है।<ref>{{cite web|url=http://www.google.com/mail/help/intl/en_GB/fightspam/spamexplained.html|title=जीमेल आपके इनबॉक्स से स्पैम को दूर रखने के लिए Google की नवीन तकनीक का उपयोग करता है|access-date=2015-09-05|archive-url=https://web.archive.org/web/20150913070222/http://www.google.com/mail/help/intl/en_GB/fightspam/spamexplained.html|archive-date=2015-09-13|url-status=live}}</ref><ref>{{cite journal|last1=Zhu|first1=Z.|last2=Jia|first2=Z|last3=Xiao|first3=H|last4=Zhang|first4=G|last5=Liang|first5=H.|last6=Wang|first6=P.|editor1-last=Li|editor1-first=S|editor2-last=Jin|editor2-first=Q|editor3-last=Jiang|editor3-first=X|editor4-last=Park|editor4-first=J|editor1-link=Frontier and Future Development of Information Technology in Medicine and Education. Lecture Notes in Electrical Engineering|title=एक संशोधित न्यूनतम जोखिम आधार और स्पैम में इसका अनुप्रयोग|journal=Lecture Notes in Electrical Engineering|date=2014|volume=269|pages=2155–2159|doi=10.1007/978-94-007-7618-0_261|publisher=Springer|location=Dordrecht|language=en}}</ref> | ||
==बायेसियन फ़िल्टरिंग के सामान्य अनुप्रयोग == | ==बायेसियन फ़िल्टरिंग के सामान्य अनुप्रयोग == | ||
जबकि बायेसियन फ़िल्टरिंग का उपयोग स्पैम ईमेल की पहचान करने के लिए व्यापक रूप से किया जाता है, तकनीक लगभग किसी भी प्रकार के डेटा को वर्गीकृत (या क्लस्टर) कर सकती है। इसका विज्ञान, चिकित्सा और इंजीनियरिंग में उपयोग होता है। उदाहरण सामान्य प्रयोजन वर्गीकरण प्रोग्राम है जिसे [http://ti.arc.nasa.gov/tech/rse/sensitive-projects-applications/autoclass/ ऑटोक्लास] कहा जाता है, जिसका उपयोग मूल रूप से वर्णक्रमीय विशेषताओं के अनुसार सितारों को वर्गीकृत करने के लिए किया जाता था जो अन्यथा थे नोटिस करने के लिए बहुत सूक्ष्म का उपयोग किया जाता है। | जबकि बायेसियन फ़िल्टरिंग का उपयोग स्पैम ईमेल की पहचान करने के लिए व्यापक रूप से किया जाता है, तकनीक लगभग किसी भी प्रकार के डेटा को वर्गीकृत (या क्लस्टर) कर सकती है। इसका विज्ञान, चिकित्सा और इंजीनियरिंग में उपयोग होता है। उदाहरण सामान्य प्रयोजन वर्गीकरण प्रोग्राम है जिसे [http://ti.arc.nasa.gov/tech/rse/sensitive-projects-applications/autoclass/ ऑटोक्लास] कहा जाता है, जिसका उपयोग मूल रूप से वर्णक्रमीय विशेषताओं के अनुसार सितारों को वर्गीकृत करने के लिए किया जाता था जो अन्यथा थे नोटिस करने के लिए बहुत सूक्ष्म का उपयोग किया जाता है। |
Revision as of 15:56, 30 July 2023
Part of a series on |
Machine learning and data mining |
---|
नाइव बेयस क्लासिफायर ई-मेल फ़िल्टरिंग की लोकप्रिय सांख्यिकी वैज्ञानिक तकनीक है। वे सामान्यतः ईमेल स्पैम की पहचान करने के लिए बैग-ऑफ-वर्ड्स मॉडल या बैग-ऑफ-वर्ड्स सुविधाओं का उपयोग करते हैं, जो सामान्यतः टेक्स्ट वर्गीकरण में उपयोग किया जाता है।
नाइव बेयस क्लासिफायरियर स्पैम और गैर-स्पैम ई-मेल के साथ टोकन (सामान्यतः शब्द, या कभी-कभी अन्य चीजें) के उपयोग को सहसंबंधित करके कार्य करते हैं और फिर ईमेल के स्पैम होने या न होने की संभावना की गणना करने के लिए बेयस प्रमेय का उपयोग करते हैं।
नाइव बेयस स्पैम फ़िल्टरिंग स्पैम से निपटने के लिए आधारभूत तकनीक है जो व्यक्तिगत उपयोगकर्ताओं की ईमेल आवश्यकताओं के अनुरूप हो सकती है और कम लाई धनात्मक स्पैम पहचान दर दे सकती है जो सामान्यतः उपयोगकर्ताओं के लिए स्वीकार्य होती है। यह स्पैम फ़िल्टरिंग करने के सबसे पुराने विधियों में से है, जिसकी जड़ें 1990 के दशक में थीं।
इतिहास
बायेसियन एल्गोरिदम का उपयोग 1996 की प्रारंभ में ईमेल फ़िल्टरिंग के लिए किया गया था। चूँकि बाद में बायेसियन फ़िल्टर लोकप्रिय नहीं हुए, किन्तु अवांछित ईमेल की बढ़ती समस्या का समाधान करने के लिए 1998 में अनेक प्रोग्राम जारी किए गए थे।[1] बायेसियन स्पैम फ़िल्टरिंग पर पहला विद्वतापूर्ण प्रकाशन सहामी एट अल द्वारा किया गया था। 1998 में [2] इसके तुरंत बाद उस कार्य को वाणिज्यिक स्पैम फ़िल्टर में तैनात कर दिया गया था।
मूलभूत तकनीक के वेरिएंट को अनेक प्रयोग कार्यों और वाणिज्यिक कंप्यूटर सॉफ्टवेयर उत्पादों में प्रयुक्त किया गया है।[3] अनेक आधुनिक मेल क्लाइंट (कंप्यूटिंग) बायेसियन स्पैम फ़िल्टरिंग प्रयुक्त करते हैं। उपयोगकर्ता भिन्न ई-मेल फ़िल्टरिंग भी स्थापित कर सकते हैं। सर्वर साइड ईमेल फ़िल्टर, जैसे डीएसपीएएम, अपसंदेश,[4] स्पैमबेयस,[5] बोगो फ़िल्टर और एंटी-स्पैम एसएमटीपी प्रॉक्सी, बायेसियन स्पैम फ़िल्टरिंग तकनीकों का उपयोग करते हैं, और कार्यक्षमता कभी-कभी डाक सर्वर सॉफ़्टवेयर के अंदर ही एम्बेडेड होती है। सीआरएम114 (प्रोग्राम), जिसे अधिकांशतः बायेसियन फ़िल्टर के रूप में उद्धृत किया जाता है, जिसका उद्देश्य उत्पादन में बेयस फ़िल्टर का उपयोग करना नहीं है, किन्तु इसमें संदर्भ के लिए ″यूनिग्राम″ सुविधा सम्मिलित है।[6]
प्रक्रिया
विशेष शब्दों के स्पैम ईमेल और वैध ईमेल में होने की विशेष संभावना होती है। उदाहरण के लिए, अधिकांश ईमेल उपयोगकर्ता अधिकांशतः स्पैम ईमेल में वियाग्रा शब्द का सामना करते है, किन्तु इसे अन्य ईमेल में संभवतः ही कभी देखते है। फ़िल्टर इन संभावनाओं को पहले से नहीं जानता है, और उसे पहले प्रशिक्षित किया जाना चाहिए जिससे वह उन्हें बना सके। और फ़िल्टर को प्रशिक्षित करने के लिए, उपयोगकर्ता को मैन्युअल रूप से निरुपित करना होगा कि नया ईमेल स्पैम है या नहीं प्रत्येक प्रशिक्षण ईमेल में सभी शब्दों के लिए, फ़िल्टर उन संभावनाओं को समायोजित करेगा कि प्रत्येक शब्द अपने डेटाबेस में स्पैम या वैध ईमेल में दिखाई देगा। उदाहरण के लिए, बायेसियन स्पैम फ़िल्टर ने सामान्यतः वियाग्रा और पुनर्वित्त शब्दों के लिए बहुत अधिक स्पैम संभावना सीखी होगी, किन्तु केवल वैध ईमेल में देखे जाने वाले शब्दों, जैसे दोस्तों और वर्ग के सदस्यों के नाम, के लिए बहुत कम स्पैम संभावना होती है।
प्रशिक्षण के बाद, संभाव्यता शब्द (संभावना फलन के रूप में भी जाना जाता है) का उपयोग इस संभावना की गणना करने के लिए किया जाता है कि शब्दों के विशेष सेट वाला ईमेल किसी भी श्रेणी से संबंधित है। ईमेल का प्रत्येक शब्द ईमेल की स्पैम संभावना में योगदान देता है, या केवल सबसे रोचक शब्द इस योगदान को पश्च संभाव्यता कहा जाता है और इसकी गणना बेयस प्रमेय का उपयोग करके की जाती है। फिर, ईमेल की स्पैम संभावना की गणना ईमेल के सभी शब्दों पर की जाती है, और यदि कुल निश्चित सीमा (मान लीजिए 95%) से अधिक है, जिससे फ़िल्टर ईमेल को स्पैम के रूप में चिह्नित करता है।
किसी भी अन्य स्पैम फ़िल्टरिंग तकनीक की तरह, स्पैम के रूप में चिह्नित ईमेल को स्वचालित रूप से जंक ईमेल फ़ोल्डर में ले जाया जा सकता है, या सीधे हटाया भी जा सकता है। कुछ सॉफ़्टवेयर संगरोध तंत्र प्रयुक्त करते हैं जो समय सीमा परिभाषित करते हैं जिसके समय उपयोगकर्ता को सॉफ़्टवेयर के निर्णय की समीक्षा करने की अनुमति होती है।
प्रारंभिक प्रशिक्षण को सामान्यतः तब परिष्कृत किया जा सकता है जब सॉफ़्टवेयर से गलत निर्णय (लाई धनात्मक या लाई ऋणात्मक) की पहचान की जाती है। यह सॉफ़्टवेयर को स्पैम की निरंतर विकसित होने वाली प्रकृति के लिए गतिशील रूप से अनुकूलित करने की अनुमति देता है।
कुछ स्पैम फ़िल्टर बायेसियन स्पैम फ़िल्टरिंग और अन्य मेटाह्यूरिस्टिक (पदार्थ के बारे में पूर्व-निर्धारित नियम, संदेश के लिफाफे को देखना, आदि) दोनों के परिणामों को जोड़ते हैं, जिसके परिणामस्वरूप फ़िल्टरिंग स्पष्टता और भी अधिक हो जाती है, कभी-कभी अनुकूलन की मूल्य पर उपयोग की जाती है।
गणितीय आधार
बायेसियन ईमेल फ़िल्टर बेयस प्रमेय का उपयोग करते हैं। बेयस प्रमेय का प्रयोग स्पैम के संदर्भ में अनेक बार किया जाता है:
- पहली बार, इस संभावना की गणना करने के लिए कि संदेश स्पैम है, यह जानते हुए कि इस संदेश में दिया गया शब्द दिखाई देता है;
- दूसरी बार, इसके सभी शब्दों (या उनके प्रासंगिक उपसमूह) को ध्यान में रखते हुए, संदेश के स्पैम होने की संभावना की गणना करने के लिए;
- कभी-कभी तीसरी बार, दुर्लभ शब्दों से निपटने के लिए उपयोग किया जाता है।
संभावना की गणना करना कि किसी दिए गए शब्द वाला संदेश स्पैम है
मान लीजिए कि संदिग्ध संदेश में प्रतिकृति शब्द सम्मिलित है। अधिकांश लोग जो ई-मेल प्राप्त करने के आदी हैं, वे जानते हैं कि यह संदेश स्पैम होने की संभावना है, अधिक स्पष्ट रूप से प्रसिद्ध ब्रांडों की घड़ियों की नकली प्रतियां बेचने का प्रस्ताव है। चूँकि, स्पैम का पता लगाने वाला सॉफ़्टवेयर ऐसे तथ्यों को नहीं जानता है; यह केवल संभावनाओं की गणना कर सकता है।
इसे निर्धारित करने के लिए सॉफ़्टवेयर द्वारा उपयोग किया जाने वाला सूत्र बेयस प्रमेय से लिया गया है
जहाँ:
- यह संभावना है कि कोई संदेश स्पैम है, यह जानते हुए कि उसमें प्रतिकृति शब्द है;
- यह समग्र संभावना है कि कोई भी संदेश स्पैम है;
- क्या संभावना है कि प्रतिकृति शब्द स्पैम संदेशों में दिखाई देता है;
- यह समग्र संभावना है कि कोई भी संदेश स्पैम नहीं है ;
- यह संभावना है कि प्रतिकृति शब्द हैम संदेशों में दिखाई देता है।
(पूर्ण प्रदर्शन के लिए, बेयस प्रमेय विस्तारित रूप देखें।)
किसी शब्द की स्पैमपन
आंकड़े [7] दिखाएँ कि किसी भी संदेश के स्पैम होने की वर्तमान संभावना कम से कम 80% है:
चूँकि, अधिकांश बायेसियन स्पैम डिटेक्शन सॉफ़्टवेयर यह धारणा बनाते हैं कि किसी भी आने वाले संदेश के हैम के अतिरिक्त स्पैम होने का कोई प्राथमिक कारण नहीं है, और दोनों स्थितियों में 50% की समान संभावनाएँ मानते हैं:
इस परिकल्पना का उपयोग करने वाले फ़िल्टर को पक्षपाती नहीं कहा जाता है, जिसका अर्थ है कि उन्हें आने वाले ईमेल के संबंध में कोई पूर्वाग्रह नहीं है। यह धारणा सामान्य सूत्र को सरल बनाने की अनुमति देती है:
यह कार्यात्मक रूप से यह पूछने के समान है कि स्पैम संदेशों में प्रतिकृति शब्द की कितनी प्रतिशत घटनाएँ दिखाई देती हैं?
इस मात्रा को प्रतिकृति शब्द की स्पैमसिटी (या स्पैमनेस) कहा जाता है, और इसकी गणना की जा सकती है। जो नंबर इस सूत्र में उपयोग किए गए संदेशों को सीखने के वेरिएबल ण के समय स्पैम के रूप में पहचाने गए संदेशों में प्रतिकृति वाले संदेशों की आवृत्ति का अनुमान लगाया गया है। इसी प्रकार, सीखने के वेरिएबल ण के समय हैम के रूप में पहचाने गए संदेशों में प्रतिकृति वाले संदेशों की आवृत्ति का अनुमान लगाया गया है। इन अनुमानों को समझने के लिए, सीखे गए संदेशों का सेट बड़ा और पर्याप्त प्रतिनिधि होना आवश्यक है। यह भी सलाह दी जाती है कि संदेशों का सीखा हुआ सेट स्पैम और हैम के बीच पुनर्विभाजन के बारे में 50% परिकल्पना के अनुरूप हो, अर्थात कि स्पैम और हैम के डेटासेट ही आकार के होंते है।[8]
निसंदेह, प्रतिकृति शब्द की उपस्थिति के आधार पर यह निर्धारित करना कि कोई संदेश स्पैम है या हैम, त्रुटि-प्रवण है, यही कारण है कि बायेसियन स्पैम सॉफ़्टवेयर किसी संदेश के स्पैम होने की समग्र संभावना निर्धारित करने के लिए अनेक शब्दों पर विचार करने और उनकी स्पैमिसिटी को संयोजित करने का प्रयास करता है।
व्यक्तिगत संभावनाओं का संयोजन
अधिकांश बायेसियन स्पैम फ़िल्टरिंग एल्गोरिदम उन सूत्रों पर आधारित होते हैं जो केवल तभी मान्य होते हैं (संभाव्य दृष्टिकोण से) यदि संदेश में उपस्थित शब्द सांख्यिकीय स्वतंत्रता हैं। यह स्थिति सामान्यतः संतुष्ट नहीं होती है (उदाहरण के लिए, अंग्रेजी जैसी प्राकृतिक भाषाओं में विशेषण खोजने की संभावना संज्ञा होने की संभावना से प्रभावित होती है), किन्तु यह उपयोगी आदर्शीकरण है, जब से व्यक्तिगत शब्दों के बीच सांख्यिकीय सहसंबंध सामान्यतः नहीं होते हैं ज्ञात इस आधार पर, बेयस प्रमेय से निम्नलिखित सूत्र प्राप्त किया जा सकता है:
जहाँ:
- क्या संभावना है कि संदिग्ध संदेश स्पैम है;
- संभावना है पहला शब्द (उदाहरण के लिए प्रतिकृति) प्रकट होता है, यह देखते हुए कि संदेश स्पैम है;
- संभावना है दूसरा शब्द (उदाहरण के लिए देखता है) प्रकट होता है, यह देखते हुए कि संदेश स्पैम है;
इस सूत्र पर आधारित स्पैम फ़िल्टरिंग सॉफ़्टवेयर को कभी-कभी नैवे बेयस क्लासिफायरियर के रूप में संदर्भित किया जाता है, क्योंकि नैवे सुविधाओं के बीच सशक्त सांख्यिकीय स्वतंत्रता धारणाओं को संदर्भित करता है। परिणाम p की तुलना सामान्यतः यह तय करने के लिए दी गई सीमा से की जाती है कि संदेश स्पैम है या नहीं है। यदि p सीमा से कम है, तो संदेश को संभावित हैम माना जाता है, अन्यथा इसे संभावित स्पैम माना जाता है।
व्यक्तिगत संभावनाओं के संयोजन के लिए सूत्र की अन्य अभिव्यक्ति
सामान्यतः अंकगणितीय अंडरफ्लो या फ्लोटिंग-पॉइंट अंडरफ्लो के कारण उपरोक्त सूत्र का उपयोग करके p की सीधे गणना नहीं की जाती है। इसके अतिरिक्त, मूल समीकरण को निम्नानुसार पुनः लिखकर लॉग डोमेन में p की गणना की जा सकती है:
दोनों तरफ से लॉग लेना:
होने देना . इसलिए,
इसलिए संयुक्त संभाव्यता की गणना के लिए वैकल्पिक सूत्र:
दुर्लभ शब्दों से निपटना
यदि कोई शब्द सीखने के वेरिएबल ण के समय कभी नहीं मिला है, जिससे सामान्य सूत्र और स्पैमिसिटी सूत्र दोनों में अंश और हर दोनों शून्य के समान हैं। सॉफ़्टवेयर ऐसे शब्दों को हटाने का निर्णय ले सकता है जिनके बारे में कोई जानकारी उपलब्ध नहीं है।
सामान्यतः, सीखने के वेरिएबल ण के समय केवल कुछ ही बार सामने आए शब्द समस्या का कारण बनते हैं, क्योंकि उनके द्वारा प्रदान की गई जानकारी पर आँख संवृत करके विश्वास करना गलती होता है। सरल उपाय यह है कि ऐसे अविश्वसनीय शब्दों को भी ध्यान में न रखा जाता है।
बेयस प्रमेय को फिर से प्रयुक्त करना, और किसी दिए गए शब्द (प्रतिकृति) वाले ईमेल के स्पैम और हैम के बीच वर्गीकरण को बीटा वितरण के साथ यादृच्छिक वेरिएबल मानते हुए, कुछ प्रोग्राम सही संभावना का उपयोग करने का निर्णय लेते हैं:
जहाँ:
- संदेश के स्पैम होने की सही संभावना है, यह जानते हुए कि इसमें दिया गया शब्द है;
- यह वह ताकत है जो हम आने वाले स्पैम के बारे में पृष्ठभूमि जानकारी को देते हैं;
- किसी भी आने वाले संदेश के स्पैम होने की संभावना है;
- सीखने के वेरिएबल ण के समय इस शब्द के आने की संख्या है;
- इस शब्द की स्पैमसिटी है.
(प्रदर्शन:[9])
संयोजन सूत्र में स्पैमिसिटी के स्थान पर इस संशोधित संभाव्यता का उपयोग किया जाता है।
आने वाली ईमेल के बारे में अत्यधिक संदेह से बचने के लिए, इसे फिर से 0.5 के समान लिया जा सकता है। 3, s के लिए अच्छा मान है, जिसका अर्थ है कि सीखे गए कॉर्पस में डिफ़ॉल्ट मान की तुलना में स्पैमिसिटी मान पर अधिक विश्वास रखने के लिए उस शब्द के साथ 3 से अधिक संदेश होने चाहिए।.
इस सूत्र को उस स्थिति तक बढ़ाया जा सकता है जहां n शून्य के समान है (और जहां स्पैमिसिटी परिभाषित नहीं है), और इस स्थिति में मूल्यांकन करता है .
अन्य अनुमान
प्राकृतिक शब्द जैसे , a , सम , या is (अंग्रेजी में), या अन्य भाषाओं में उनके समकक्षों को नजरअंदाज किया जा सकता है। इन्हें शब्द के नाम से भी जाना जाता है। अधिक सामान्यतः, कुछ बायेसियन फ़िल्टरिंग फ़िल्टर उन सभी शब्दों को अनदेखा कर देते हैं जिनकी स्पैमिसिटी 0.5 के आगे होती है, क्योंकि वे अच्छे निर्णय में बहुत कम योगदान देते हैं। विचार किए गए शब्द वे हैं जिनकी स्पैमसिटी 0.0 (वैध संदेशों के विशिष्ट संकेत) के बगल में है, या 1.0 (स्पैम के विशिष्ट संकेत) के बगल में है। उदाहरण के लिए विधि यह हो सकती है कि जांचे गए संदेश में केवल उन्हीं दस शब्दों को रखा जाए, जिनका निरपेक्ष मान सबसे बड़ा हो |0.5 − pI| जाते है
कुछ सॉफ़्टवेयर उत्पाद इस तथ्य को ध्यान में रखते हैं कि जांचे गए संदेश में दिया गया शब्द अनेक बार दिखाई देता है,[10] .
कुछ सॉफ़्टवेयर उत्पाद भिन्न -भिन्न प्राकृतिक भाषाओं के शब्दों के अतिरिक्त पैटर्न (शब्दों के अनुक्रम) का उपयोग करते हैं।[11] उदाहरण के लिए, चार शब्दों की संदर्भ विंडो के साथ, वे वियाग्रा की स्पैमिसिटी की गणना करते हैं, इसके लिए अच्छा है, वियाग्रा की स्पैमिसिटी की गणना करने के अतिरिक्त, है, यह विधि संदर्भ के प्रति अधिक संवेदनशीलता देती है और बड़े डेटाबेस की मूल्य पर बायेसियन ध्वनि को उत्तम विधि से समाप्त करती है।
मिश्रित विधियाँ
सरल दृष्टिकोण का उपयोग करने के अतिरिक्त भिन्न -भिन्न शब्दों के लिए व्यक्तिगत संभावनाओं को संयोजित करने के अन्य विधि भी हैं। ये विधियां इनपुट डेटा के सांख्यिकीय गुणों पर बनाई गई धारणाओं से भिन्न होती हैं। इन विभिन्न परिकल्पनाओं के परिणामस्वरूप व्यक्तिगत संभावनाओं के संयोजन के लिए मौलिक रूप से भिन्न सूत्र बनते हैं।
उदाहरण के लिए, यह मानते हुए कि व्यक्तिगत संभावनाएँ 2N डिग्री की स्वतंत्रता के साथ ची-वर्ग वितरण का पालन करती हैं, कोई सूत्र का उपयोग कर सकता है:
जहां c−1 व्युत्क्रम-ची-वर्ग वितरण या ची-वर्ग फलन का व्युत्क्रम है।
व्यक्तिगत संभावनाओं को मार्कोवियन की तकनीकों के साथ भी जोड़ा जा सकता है।
चर्चा
लाभ
मुख्य लाभों में से एक बायेसियन स्पैम फ़िल्टरिंग की विशेषता यह है कि इसे प्रति-उपयोगकर्ता के आधार पर प्रशिक्षित किया जा सकता है।
उपयोगकर्ता को प्राप्त होने वाला स्पैम अधिकांशतः ऑनलाइन उपयोगकर्ता की गतिविधियों से संबंधित होता है। उदाहरण के लिए, हो सकता है कि किसी उपयोगकर्ता ने किसी ऑनलाइन न्यूज़लेटर की सदस्यता ली हो जिसे उपयोगकर्ता स्पैम मानता होता है। इस ऑनलाइन न्यूज़लेटर में ऐसे शब्द सम्मिलित होने की संभावना है जो सभी न्यूज़लेटर्स में समान हैं, जैसे न्यूज़लेटर का नाम और इसका मूल ईमेल पता बायेसियन स्पैम फ़िल्टर अंततः उपयोगकर्ता के विशिष्ट पैटर्न के आधार पर उच्च संभावना प्रदान करता है।
उपयोगकर्ता को प्राप्त वैध ई-मेल भिन्न -भिन्न होते है। उदाहरण के लिए, कॉर्पोरेट वातावरण में, कंपनी का नाम और ग्राहकों या ग्राहकों के नाम का अधिकांशतः उल्लेख किया जाता है। फ़िल्टर उन नामों वाले ईमेल को कम स्पैम संभावना प्रदान करता है।
संभाव्यता शब्द प्रत्येक उपयोगकर्ता के लिए अद्वितीय है और जब भी फ़िल्टर किसी ईमेल को गलत विधि से वर्गीकृत करता है तो धनात्मक प्रशिक्षण के साथ समय के साथ विकसित हो सकता है। परिणामस्वरूप, प्रशिक्षण के बाद बायेसियन स्पैम फ़िल्टरिंग स्पष्टता अधिकांशतः पूर्व-निर्धारित नियमों से उत्तम होती है।
यह लाई धनात्म्क्ताओं से बचने में विशेष रूप से अच्छा प्रदर्शन कर सकता है, जहां वैध ईमेल को गलत विधि से स्पैम के रूप में वर्गीकृत किया गया है। उदाहरण के लिए, यदि ईमेल में शब्द सम्मिलित है, जिसका उपयोग अधिकांशतः एडवांस शुल्क धोखाधड़ी स्पैम में किया जाता है, तो पूर्व-परिभाषित नियम फ़िल्टर इसे पूरी तरह से अस्वीकार कर सकता है। बायेसियन फ़िल्टर नाइजीरिया शब्द को संभावित स्पैम शब्द के रूप में चिह्नित करेगा, किन्तु अन्य महत्वपूर्ण शब्दों को ध्यान में रखेगा जो सामान्यतः वैध ई-मेल का संकेत देते हैं। उदाहरण के लिए, जीवनसाथी का नाम दृढ़ता से संकेत दे सकता है कि ई-मेल स्पैम नहीं है, जो शब्द के उपयोग पर प्राप्त कर सकता है।
हानियाँ
कार्यान्वयन के आधार पर, बायेसियन स्पैम फ़िल्टरिंग बायेसियन विषाक्तता के प्रति संवेदनशील हो सकती है, स्पैमर्स द्वारा बायेसियन फ़िल्टरिंग पर निर्भर स्पैम फ़िल्टर की प्रभावशीलता को कम करने के प्रयास में उपयोग की जाने वाली तकनीक बायेसियन विषाक्तता का अभ्यास करने वाला स्पैमर बड़ी मात्रा में वैध टेक्स्ट (वैध समाचार या साहित्यिक स्रोतों से एकत्रित) के साथ ईमेल भेजता है। ईमेल स्पैम रणनीति में बेतरतीब अहानिकर शब्दों का सम्मिलन सम्मिलित है जो सामान्यतः स्पैम से जुड़े नहीं होते हैं, जिससे ईमेल का स्पैम स्कोर कम हो जाता है, जिससे बायेसियन स्पैम फ़िल्टर से आगे निकल जाने की संभावना बढ़ जाती है। चूँकि, (उदाहरण के लिए) पॉल ग्राहम की योजना में केवल सबसे महत्वपूर्ण संभावनाओं का उपयोग किया जाता है, जिससे टेक्स्ट को गैर-स्पैम-संबंधित शब्दों के साथ भरने से पता लगाने की संभावना महत्वपूर्ण रूप से प्रभावित नही होता है।
जो शब्द सामान्यतः स्पैम में बड़ी मात्रा में दिखाई देते हैं, उन्हें स्पैमर द्वारा रूपांतरित भी किया जा सकता है। उदाहरण के लिए, स्पैम संदेश में "वी!आग्रा" से बदल दिया जाता है। संदेश का प्राप्तकर्ता अभी भी बदले हुए शब्दों को पढ़ सकता है, किन्तु इनमें से प्रत्येक शब्द बायेसियन फ़िल्टर से बहुत कम मिलता है, जो इसकी सीखने की प्रक्रिया में बाधा डालता है। सामान्य नियम के रूप में, यह स्पैमिंग तकनीक बहुत अच्छी तरह से कार्य नहीं करती है, क्योंकि व्युत्पन्न शब्द सामान्य शब्दों की तरह ही फ़िल्टर द्वारा पहचाने जाते हैं।[12]
बायेसियन स्पैम फ़िल्टर को हराने के लिए उपयोग की जाने वाली अन्य तकनीक टेक्स्ट को सीधे सम्मिलित या लिंक किए गए चित्रों से बदलना है। संदेश का पूरा टेक्स्ट, या उसका कुछ भाग, चित्र से बदल दिया जाता है जहाँ वही टेक्स्ट खींचा जाता है। स्पैम फ़िल्टर सामान्यतः इस तस्वीर का विश्लेषण करने में असमर्थ है, जिसमें «वियाग्रा» जैसे संवेदनशील शब्द होते है। चूँकि अनेक मेल क्लाइंट सुरक्षा कारणों से लिंक की गई इमेज्स के प्रदर्शन को अक्षम कर देते हैं, इसलिए दूर की इमेज्स के लिंक भेजने वाला स्पैमर कम लक्ष्यों तक पहुंच सकता है। साथ ही, बाइट्स में चित्र का आकार समतुल्य टेक्स्ट के आकार से बड़ा होता है, इसलिए स्पैमर को चित्रों सहित सीधे संदेश भेजने के लिए अधिक बैंडविड्थ की आवश्यकता होती है। कुछ फ़िल्टर यह तय करने में अधिक इच्छुक होते हैं कि कोई संदेश स्पैम है यदि उसमें अधिकतर ग्राफ़िकल पदार्थ है। गूगल द्वारा अपने जीमेल लगीं ईमेल सिस्टम में उपयोग किया जाने वाला समाधान प्रत्येक मध्य से बड़े आकार की छवि पर ऑप्टिकल कैरेक्टर मान्यता या ओसीआर (ऑप्टिकल कैरेक्टर रिकग्निशन) निष्पादित करना है, जिसमें अंदर के टेक्स्ट का विश्लेषण किया जाता है।[13][14]
बायेसियन फ़िल्टरिंग के सामान्य अनुप्रयोग
जबकि बायेसियन फ़िल्टरिंग का उपयोग स्पैम ईमेल की पहचान करने के लिए व्यापक रूप से किया जाता है, तकनीक लगभग किसी भी प्रकार के डेटा को वर्गीकृत (या क्लस्टर) कर सकती है। इसका विज्ञान, चिकित्सा और इंजीनियरिंग में उपयोग होता है। उदाहरण सामान्य प्रयोजन वर्गीकरण प्रोग्राम है जिसे ऑटोक्लास कहा जाता है, जिसका उपयोग मूल रूप से वर्णक्रमीय विशेषताओं के अनुसार सितारों को वर्गीकृत करने के लिए किया जाता था जो अन्यथा थे नोटिस करने के लिए बहुत सूक्ष्म का उपयोग किया जाता है।
यह भी देखें
- स्पैम विरोधी तकनीक
- बायेसियन विषाक्तता
- ईमेल फ़िल्टरिंग
- मार्कोवियन विभेदन
- बेयस फिल्टर के मूल कार्यान्वयन के साथ मोज़िला थंडरबर्ड मेल क्लाइंट [15][16]
संदर्भ
- ↑ Brunton, Finn (2013). Spam: A Shadow History of the Internet. MIT Press. p. 136. ISBN 9780262018876. Archived from the original on 2019-03-23. Retrieved 2017-09-13.
- ↑ M. Sahami; S. Dumais; D. Heckerman; E. Horvitz (1998). "जंक ई-मेल को फ़िल्टर करने के लिए एक बायेसियन दृष्टिकोण" (PDF). AAAI'98 Workshop on Learning for Text Categorization. Archived (PDF) from the original on 2007-09-27. Retrieved 2007-08-15.
- ↑ "जंक मेल नियंत्रण". MozillaZine. November 2009. Archived from the original on 2012-10-23. Retrieved 2010-01-16.
- ↑ "Installation". Ubuntu manuals. 2010-09-18. Archived from the original on 29 September 2010. Retrieved 2010-09-18.
Gary Robinson's f(x) and combining algorithms, as used in SpamAssassin
- ↑ "Background Reading". SpamBayes project. 2010-09-18. Archived from the original on 6 September 2010. Retrieved 2010-09-18.
Sharpen your pencils, this is the mathematical background (such as it is).* The paper that started the ball rolling: Paul Graham's A Plan for Spam.* Gary Robinson has an interesting essay suggesting some improvements to Graham's original approach.* Gary Robinson's Linux Journal article discussed using the chi squared distribution.
- ↑ "संग्रहीत प्रति". Archived from the original on 2016-10-07. Retrieved 2016-07-09.
- ↑ Dylan Mors & Dermot Harnett (2009). "State of Spam, a Monthly Report - Report #33" (PDF). Archived (PDF) from the original on 2009-10-07. Retrieved 2009-12-30.
- ↑ Process Software, Introduction to Bayesian Filtering Archived 2012-02-06 at the Wayback Machine
- ↑ Gary Robinson (2003). "स्पैम समस्या के लिए एक सांख्यिकीय दृष्टिकोण". Linux Journal. Archived from the original on 2010-10-22. Retrieved 2007-07-19.
- ↑ Brian Burton (2003). "स्पैमप्रोब - बायेसियन स्पैम फ़िल्टरिंग बदलाव". Archived from the original on 2012-03-01. Retrieved 2009-01-19.
- ↑ Jonathan A. Zdziarski (2004). "Bayesian Noise Reduction: Contextual Symmetry Logic Utilizing Pattern Consistency Analysis".[permanent dead link]
- ↑ Paul Graham (2002), A Plan for Spam Archived 2004-04-04 at the Wayback Machine
- ↑ "जीमेल आपके इनबॉक्स से स्पैम को दूर रखने के लिए Google की नवीन तकनीक का उपयोग करता है". Archived from the original on 2015-09-13. Retrieved 2015-09-05.
- ↑ Zhu, Z.; Jia, Z; Xiao, H; Zhang, G; Liang, H.; Wang, P. (2014). Li, S; Jin, Q; Jiang, X; Park, J (eds.). "एक संशोधित न्यूनतम जोखिम आधार और स्पैम में इसका अनुप्रयोग". Lecture Notes in Electrical Engineering (in English). Dordrecht: Springer. 269: 2155–2159. doi:10.1007/978-94-007-7618-0_261.
- ↑ Hristea, Florentina T. (2013). The Naïve Bayes Model for Unsupervised Word Sense Disambiguation (in English). London; Berlin: Springer- Verlag Heidelberg Berlin. p. 70. ISBN 978-3-642-33692-8.
- ↑ Zheng, J.; Tang, Yongchuan (2005). Mira, Jose; Álvarez, Jose R (eds.). "नाइव बेयस से फ़ज़ी सेट का एक सामान्यीकरण और फ़ज़ी नाइव बेज़ क्लासिफायर का डिज़ाइन". Lecture Notes in Computer Science (in English). Berlin: Springer, Berlin, Heidelberg. 3562: 281. doi:10.1007/11499305_29. ISBN 978-3-540-26319-7. ISSN 0302-9743.