नाइव बेयस स्पैम फ़िल्टरिंग: Difference between revisions

From Vigyanwiki
(Created page with "{{Machine learning bar}} Naive Bayes क्लासिफायर ई-मेल फ़िल्टरिंग की एक लोकप्रिय सांख्य...")
 
No edit summary
Line 1: Line 1:
{{Machine learning bar}}
{{Machine learning bar}}
Naive Bayes क्लासिफायर [[ई-मेल फ़िल्टरिंग]] की एक लोकप्रिय सांख्यिकी [[वैज्ञानिक तकनीक]] है। वे आम तौर पर [[ईमेल स्पैम]] की पहचान करने के लिए [[बैग-ऑफ-वर्ड्स मॉडल]] | बैग-ऑफ-वर्ड्स सुविधाओं का उपयोग करते हैं, जो आमतौर पर [[दस्तावेज़ वर्गीकरण]] में उपयोग किया जाता है।
Naive Bayes क्लासिफायर [[ई-मेल फ़िल्टरिंग]] की लोकप्रिय सांख्यिकी [[वैज्ञानिक तकनीक]] है। वे आम तौर पर [[ईमेल स्पैम]] की पहचान करने के लिए [[बैग-ऑफ-वर्ड्स मॉडल]] | बैग-ऑफ-वर्ड्स सुविधाओं का उपयोग करते हैं, जो आमतौर पर [[दस्तावेज़ वर्गीकरण]] में उपयोग किया जाता है।


[[नाइव बेयस क्लासिफायरियर]] स्पैम और गैर-स्पैम ई-मेल के साथ टोकन (आमतौर पर शब्द, या कभी-कभी अन्य चीजें) के उपयोग को सहसंबंधित करके काम करते हैं और फिर ईमेल के स्पैम होने या न होने की संभावना की गणना करने के लिए बेयस प्रमेय का उपयोग करते हैं।
[[नाइव बेयस क्लासिफायरियर]] स्पैम और गैर-स्पैम ई-मेल के साथ टोकन (आमतौर पर शब्द, या कभी-कभी अन्य चीजें) के उपयोग को सहसंबंधित करके काम करते हैं और फिर ईमेल के स्पैम होने या न होने की संभावना की गणना करने के लिए बेयस प्रमेय का उपयोग करते हैं।


Naive Bayes स्पैम फ़िल्टरिंग स्पैम से निपटने के लिए एक आधारभूत तकनीक है जो व्यक्तिगत उपयोगकर्ताओं की ईमेल आवश्यकताओं के अनुरूप हो सकती है और कम झूठी सकारात्मक स्पैम पहचान दर दे सकती है जो आम तौर पर उपयोगकर्ताओं के लिए स्वीकार्य होती है। यह स्पैम फ़िल्टरिंग करने के सबसे पुराने तरीकों में से एक है, जिसकी जड़ें 1990 के दशक में थीं।
Naive Bayes स्पैम फ़िल्टरिंग स्पैम से निपटने के लिए आधारभूत तकनीक है जो व्यक्तिगत उपयोगकर्ताओं की ईमेल आवश्यकताओं के अनुरूप हो सकती है और कम झूठी सकारात्मक स्पैम पहचान दर दे सकती है जो आम तौर पर उपयोगकर्ताओं के लिए स्वीकार्य होती है। यह स्पैम फ़िल्टरिंग करने के सबसे पुराने तरीकों में से है, जिसकी जड़ें 1990 के दशक में थीं।


==इतिहास==
==इतिहास==
बायेसियन एल्गोरिदम का उपयोग 1996 की शुरुआत में ईमेल फ़िल्टरिंग के लिए किया गया था। हालाँकि बाद में बायेसियन फ़िल्टर लोकप्रिय नहीं हुए, लेकिन अवांछित ईमेल की बढ़ती समस्या का समाधान करने के लिए 1998 में कई कार्यक्रम जारी किए गए।<ref>{{cite book|title=Spam: A Shadow History of the Internet|last=Brunton|first=Finn|publisher=[[MIT Press]]|year=2013|isbn=9780262018876|page=136|url=https://books.google.com/books?id=QF7EjCRg5CIC&pg=PA136|access-date=2017-09-13|archive-url=https://web.archive.org/web/20190323133300/https://books.google.com/books?id=QF7EjCRg5CIC&pg=PA136|archive-date=2019-03-23|url-status=live}}</ref> बायेसियन स्पैम फ़िल्टरिंग पर पहला विद्वतापूर्ण प्रकाशन सहामी एट अल द्वारा किया गया था। 1998 में।<ref>{{cite web|url=http://robotics.stanford.edu/users/sahami/papers-dir/spam.pdf|author1=M. Sahami|author2=S. Dumais|author3=D. Heckerman|author4=E. Horvitz|title=जंक ई-मेल को फ़िल्टर करने के लिए एक बायेसियन दृष्टिकोण|publisher=AAAI'98 Workshop on Learning for Text Categorization|year=1998|access-date=2007-08-15|archive-url=https://web.archive.org/web/20070927171816/http://robotics.stanford.edu/users/sahami/papers-dir/spam.pdf|archive-date=2007-09-27|url-status=live}}</ref> इसके तुरंत बाद उस कार्य को वाणिज्यिक स्पैम फ़िल्टर में तैनात कर दिया गया।{{Citation needed|date=September 2010}}
बायेसियन एल्गोरिदम का उपयोग 1996 की शुरुआत में ईमेल फ़िल्टरिंग के लिए किया गया था। हालाँकि बाद में बायेसियन फ़िल्टर लोकप्रिय नहीं हुए, लेकिन अवांछित ईमेल की बढ़ती समस्या का समाधान करने के लिए 1998 में कई कार्यक्रम जारी किए गए।<ref>{{cite book|title=Spam: A Shadow History of the Internet|last=Brunton|first=Finn|publisher=[[MIT Press]]|year=2013|isbn=9780262018876|page=136|url=https://books.google.com/books?id=QF7EjCRg5CIC&pg=PA136|access-date=2017-09-13|archive-url=https://web.archive.org/web/20190323133300/https://books.google.com/books?id=QF7EjCRg5CIC&pg=PA136|archive-date=2019-03-23|url-status=live}}</ref> बायेसियन स्पैम फ़िल्टरिंग पर पहला विद्वतापूर्ण प्रकाशन सहामी एट अल द्वारा किया गया था। 1998 में।<ref>{{cite web|url=http://robotics.stanford.edu/users/sahami/papers-dir/spam.pdf|author1=M. Sahami|author2=S. Dumais|author3=D. Heckerman|author4=E. Horvitz|title=जंक ई-मेल को फ़िल्टर करने के लिए एक बायेसियन दृष्टिकोण|publisher=AAAI'98 Workshop on Learning for Text Categorization|year=1998|access-date=2007-08-15|archive-url=https://web.archive.org/web/20070927171816/http://robotics.stanford.edu/users/sahami/papers-dir/spam.pdf|archive-date=2007-09-27|url-status=live}}</ref> इसके तुरंत बाद उस कार्य को वाणिज्यिक स्पैम फ़िल्टर में तैनात कर दिया गया।


बुनियादी तकनीक के वेरिएंट को कई शोध कार्यों और वाणिज्यिक [[कंप्यूटर सॉफ्टवेयर]] उत्पादों में लागू किया गया है।<ref>{{cite web|url=http://kb.mozillazine.org/Junk_Mail_Controls|title=जंक मेल नियंत्रण|publisher=MozillaZine|date=November 2009|access-date=2010-01-16|archive-url=https://web.archive.org/web/20121023211104/http://kb.mozillazine.org/Junk_Mail_Controls|archive-date=2012-10-23|url-status=live}}</ref> कई आधुनिक मेल [[क्लाइंट (कंप्यूटिंग)]] बायेसियन स्पैम फ़िल्टरिंग लागू करते हैं। उपयोगकर्ता अलग ई-मेल फ़िल्टरिंग भी स्थापित कर सकते हैं। [[ सर्वर साइड ]] ईमेल फ़िल्टर, जैसे [[DSPAM]], [[SpamAssassin]],<ref name=twsSep14yy>{{cite web
बुनियादी तकनीक के वेरिएंट को कई शोध कार्यों और वाणिज्यिक [[कंप्यूटर सॉफ्टवेयर]] उत्पादों में लागू किया गया है।<ref>{{cite web|url=http://kb.mozillazine.org/Junk_Mail_Controls|title=जंक मेल नियंत्रण|publisher=MozillaZine|date=November 2009|access-date=2010-01-16|archive-url=https://web.archive.org/web/20121023211104/http://kb.mozillazine.org/Junk_Mail_Controls|archive-date=2012-10-23|url-status=live}}</ref> कई आधुनिक मेल [[क्लाइंट (कंप्यूटिंग)]] बायेसियन स्पैम फ़िल्टरिंग लागू करते हैं। उपयोगकर्ता अलग ई-मेल फ़िल्टरिंग भी स्थापित कर सकते हैं। [[ सर्वर साइड |सर्वर साइड]] ईमेल फ़िल्टर, जैसे [[DSPAM]], [[SpamAssassin]],<ref name=twsSep14yy>{{cite web
  |title      = Installation
  |title      = Installation
  |publisher  = Ubuntu manuals
  |publisher  = Ubuntu manuals
Line 26: Line 26:
  |url= http://spambayes.sourceforge.net/background.html
  |url= http://spambayes.sourceforge.net/background.html
  |access-date= 2010-09-18
  |access-date= 2010-09-18
| archive-url= https://web.archive.org/web/20100906031341/http://spambayes.sourceforge.net/background.html| archive-date= 6 September 2010 | url-status= live}}</ref> [[बोगो फ़िल्टर]] और [[एंटी-स्पैम एसएमटीपी प्रॉक्सी]], बायेसियन स्पैम फ़िल्टरिंग तकनीकों का उपयोग करते हैं, और कार्यक्षमता कभी-कभी [[ डाक सर्वर ]] सॉफ़्टवेयर के भीतर ही एम्बेडेड होती है। CRM114 (प्रोग्राम), जिसे अक्सर बायेसियन फ़िल्टर के रूप में उद्धृत किया जाता है, का उद्देश्य उत्पादन में बेयस फ़िल्टर का उपयोग करना नहीं है, लेकिन इसमें संदर्भ के लिए ″यूनिग्राम″ सुविधा शामिल है।<ref>{{Cite web |url=http://crm114.sourceforge.net/docs/classify_details.txt |title=संग्रहीत प्रति|access-date=2016-07-09 |archive-url=https://web.archive.org/web/20161007063935/http://crm114.sourceforge.net/docs/classify_details.txt |archive-date=2016-10-07 |url-status=live }}</ref>
| archive-url= https://web.archive.org/web/20100906031341/http://spambayes.sourceforge.net/background.html| archive-date= 6 September 2010 | url-status= live}}</ref> [[बोगो फ़िल्टर]] और [[एंटी-स्पैम एसएमटीपी प्रॉक्सी]], बायेसियन स्पैम फ़िल्टरिंग तकनीकों का उपयोग करते हैं, और कार्यक्षमता कभी-कभी [[ डाक सर्वर |डाक सर्वर]] सॉफ़्टवेयर के भीतर ही एम्बेडेड होती है। CRM114 (प्रोग्राम), जिसे अक्सर बायेसियन फ़िल्टर के रूप में उद्धृत किया जाता है, का उद्देश्य उत्पादन में बेयस फ़िल्टर का उपयोग करना नहीं है, लेकिन इसमें संदर्भ के लिए ″यूनिग्राम″ सुविधा शामिल है।<ref>{{Cite web |url=http://crm114.sourceforge.net/docs/classify_details.txt |title=संग्रहीत प्रति|access-date=2016-07-09 |archive-url=https://web.archive.org/web/20161007063935/http://crm114.sourceforge.net/docs/classify_details.txt |archive-date=2016-10-07 |url-status=live }}</ref>




Line 32: Line 32:
विशेष शब्दों के स्पैम ईमेल और वैध ईमेल में होने की विशेष [[संभावना]] होती है। उदाहरण के लिए, अधिकांश ईमेल उपयोगकर्ता अक्सर स्पैम ईमेल में [[वियाग्रा]] शब्द का सामना करेंगे, लेकिन इसे अन्य ईमेल में शायद ही कभी देखेंगे। फ़िल्टर इन संभावनाओं को पहले से नहीं जानता है, और उसे पहले प्रशिक्षित किया जाना चाहिए ताकि वह उन्हें बना सके। फ़िल्टर को प्रशिक्षित करने के लिए, उपयोगकर्ता को मैन्युअल रूप से इंगित करना होगा कि नया ईमेल स्पैम है या नहीं। प्रत्येक प्रशिक्षण ईमेल में सभी शब्दों के लिए, फ़िल्टर उन संभावनाओं को समायोजित करेगा कि प्रत्येक शब्द अपने डेटाबेस में स्पैम या वैध ईमेल में दिखाई देगा। उदाहरण के लिए, बायेसियन स्पैम फ़िल्टर ने आमतौर पर वियाग्रा और पुनर्वित्त शब्दों के लिए बहुत अधिक स्पैम संभावना सीखी होगी, लेकिन केवल वैध ईमेल में देखे जाने वाले शब्दों, जैसे दोस्तों और परिवार के सदस्यों के नाम, के लिए बहुत कम स्पैम संभावना होगी।
विशेष शब्दों के स्पैम ईमेल और वैध ईमेल में होने की विशेष [[संभावना]] होती है। उदाहरण के लिए, अधिकांश ईमेल उपयोगकर्ता अक्सर स्पैम ईमेल में [[वियाग्रा]] शब्द का सामना करेंगे, लेकिन इसे अन्य ईमेल में शायद ही कभी देखेंगे। फ़िल्टर इन संभावनाओं को पहले से नहीं जानता है, और उसे पहले प्रशिक्षित किया जाना चाहिए ताकि वह उन्हें बना सके। फ़िल्टर को प्रशिक्षित करने के लिए, उपयोगकर्ता को मैन्युअल रूप से इंगित करना होगा कि नया ईमेल स्पैम है या नहीं। प्रत्येक प्रशिक्षण ईमेल में सभी शब्दों के लिए, फ़िल्टर उन संभावनाओं को समायोजित करेगा कि प्रत्येक शब्द अपने डेटाबेस में स्पैम या वैध ईमेल में दिखाई देगा। उदाहरण के लिए, बायेसियन स्पैम फ़िल्टर ने आमतौर पर वियाग्रा और पुनर्वित्त शब्दों के लिए बहुत अधिक स्पैम संभावना सीखी होगी, लेकिन केवल वैध ईमेल में देखे जाने वाले शब्दों, जैसे दोस्तों और परिवार के सदस्यों के नाम, के लिए बहुत कम स्पैम संभावना होगी।


प्रशिक्षण के बाद, संभाव्यता शब्द (संभावना फ़ंक्शन के रूप में भी जाना जाता है) का उपयोग इस संभावना की गणना करने के लिए किया जाता है कि शब्दों के एक विशेष सेट वाला ईमेल किसी भी श्रेणी से संबंधित है। ईमेल का प्रत्येक शब्द ईमेल की स्पैम संभावना में योगदान देता है, या केवल सबसे दिलचस्प शब्द। इस योगदान को पश्च संभाव्यता कहा जाता है और इसकी गणना बेयस प्रमेय का उपयोग करके की जाती है। फिर, ईमेल की स्पैम संभावना की गणना ईमेल के सभी शब्दों पर की जाती है, और यदि कुल एक निश्चित सीमा (मान लीजिए 95%) से अधिक है, तो फ़िल्टर ईमेल को स्पैम के रूप में चिह्नित करेगा।
प्रशिक्षण के बाद, संभाव्यता शब्द (संभावना फ़ंक्शन के रूप में भी जाना जाता है) का उपयोग इस संभावना की गणना करने के लिए किया जाता है कि शब्दों के विशेष सेट वाला ईमेल किसी भी श्रेणी से संबंधित है। ईमेल का प्रत्येक शब्द ईमेल की स्पैम संभावना में योगदान देता है, या केवल सबसे दिलचस्प शब्द। इस योगदान को पश्च संभाव्यता कहा जाता है और इसकी गणना बेयस प्रमेय का उपयोग करके की जाती है। फिर, ईमेल की स्पैम संभावना की गणना ईमेल के सभी शब्दों पर की जाती है, और यदि कुल निश्चित सीमा (मान लीजिए 95%) से अधिक है, तो फ़िल्टर ईमेल को स्पैम के रूप में चिह्नित करेगा।


किसी भी अन्य [[स्पैम फ़िल्टरिंग]] तकनीक की तरह, स्पैम के रूप में चिह्नित ईमेल को स्वचालित रूप से जंक ईमेल फ़ोल्डर में ले जाया जा सकता है, या सीधे हटाया भी जा सकता है। कुछ सॉफ़्टवेयर संगरोध तंत्र लागू करते हैं जो एक समय सीमा परिभाषित करते हैं जिसके दौरान उपयोगकर्ता को सॉफ़्टवेयर के निर्णय की समीक्षा करने की अनुमति होती है।
किसी भी अन्य [[स्पैम फ़िल्टरिंग]] तकनीक की तरह, स्पैम के रूप में चिह्नित ईमेल को स्वचालित रूप से जंक ईमेल फ़ोल्डर में ले जाया जा सकता है, या सीधे हटाया भी जा सकता है। कुछ सॉफ़्टवेयर संगरोध तंत्र लागू करते हैं जो समय सीमा परिभाषित करते हैं जिसके दौरान उपयोगकर्ता को सॉफ़्टवेयर के निर्णय की समीक्षा करने की अनुमति होती है।


प्रारंभिक प्रशिक्षण को आमतौर पर तब परिष्कृत किया जा सकता है जब सॉफ़्टवेयर से गलत निर्णय (झूठी सकारात्मक या झूठी नकारात्मक) की पहचान की जाती है। यह सॉफ़्टवेयर को स्पैम की लगातार विकसित होने वाली प्रकृति के लिए गतिशील रूप से अनुकूलित करने की अनुमति देता है।
प्रारंभिक प्रशिक्षण को आमतौर पर तब परिष्कृत किया जा सकता है जब सॉफ़्टवेयर से गलत निर्णय (झूठी सकारात्मक या झूठी नकारात्मक) की पहचान की जाती है। यह सॉफ़्टवेयर को स्पैम की लगातार विकसित होने वाली प्रकृति के लिए गतिशील रूप से अनुकूलित करने की अनुमति देता है।
Line 42: Line 42:
==गणितीय आधार==
==गणितीय आधार==
बायेसियन [[ईमेल फ़िल्टर]] बेयस प्रमेय का उपयोग करते हैं। बेयस प्रमेय का प्रयोग स्पैम के संदर्भ में कई बार किया जाता है:
बायेसियन [[ईमेल फ़िल्टर]] बेयस प्रमेय का उपयोग करते हैं। बेयस प्रमेय का प्रयोग स्पैम के संदर्भ में कई बार किया जाता है:
* पहली बार, इस संभावना की गणना करने के लिए कि संदेश स्पैम है, यह जानते हुए कि इस संदेश में एक दिया गया शब्द दिखाई देता है;
* पहली बार, इस संभावना की गणना करने के लिए कि संदेश स्पैम है, यह जानते हुए कि इस संदेश में दिया गया शब्द दिखाई देता है;
* दूसरी बार, इसके सभी शब्दों (या उनके प्रासंगिक उपसमूह) को ध्यान में रखते हुए, संदेश के स्पैम होने की संभावना की गणना करने के लिए;
* दूसरी बार, इसके सभी शब्दों (या उनके प्रासंगिक उपसमूह) को ध्यान में रखते हुए, संदेश के स्पैम होने की संभावना की गणना करने के लिए;
* कभी-कभी तीसरी बार, दुर्लभ शब्दों से निपटने के लिए।
* कभी-कभी तीसरी बार, दुर्लभ शब्दों से निपटने के लिए।
Line 65: Line 65:
आंकड़े<ref>{{cite web|url=http://eval.symantec.com/mktginfo/enterprise/other_resources/b-state_of_spam_report_09-2009.en-us.pdf|author1=Dylan Mors|author2=Dermot Harnett|name-list-style=amp|title=State of Spam, a Monthly Report - Report #33|year=2009|access-date=2009-12-30|archive-url=https://web.archive.org/web/20091007000525/http://eval.symantec.com/mktginfo/enterprise/other_resources/b-state_of_spam_report_09-2009.en-us.pdf|archive-date=2009-10-07|url-status=live}}</ref> दिखाएँ कि किसी भी संदेश के स्पैम होने की वर्तमान संभावना कम से कम 80% है:
आंकड़े<ref>{{cite web|url=http://eval.symantec.com/mktginfo/enterprise/other_resources/b-state_of_spam_report_09-2009.en-us.pdf|author1=Dylan Mors|author2=Dermot Harnett|name-list-style=amp|title=State of Spam, a Monthly Report - Report #33|year=2009|access-date=2009-12-30|archive-url=https://web.archive.org/web/20091007000525/http://eval.symantec.com/mktginfo/enterprise/other_resources/b-state_of_spam_report_09-2009.en-us.pdf|archive-date=2009-10-07|url-status=live}}</ref> दिखाएँ कि किसी भी संदेश के स्पैम होने की वर्तमान संभावना कम से कम 80% है:
:<math> \Pr(S) = 0.8 ;  \Pr(H) = 0.2</math>
:<math> \Pr(S) = 0.8 ;  \Pr(H) = 0.2</math>
हालाँकि, अधिकांश बायेसियन स्पैम डिटेक्शन सॉफ़्टवेयर यह धारणा बनाते हैं कि किसी भी आने वाले संदेश के हैम के बजाय स्पैम होने का कोई प्राथमिक कारण नहीं है, और दोनों मामलों में 50% की समान संभावनाएँ मानते हैं:{{citation needed|date=July 2012}}
हालाँकि, अधिकांश बायेसियन स्पैम डिटेक्शन सॉफ़्टवेयर यह धारणा बनाते हैं कि किसी भी आने वाले संदेश के हैम के बजाय स्पैम होने का कोई प्राथमिक कारण नहीं है, और दोनों मामलों में 50% की समान संभावनाएँ मानते हैं:


:<math> \Pr(S) = 0.5 ;  \Pr(H) = 0.5</math>
:<math> \Pr(S) = 0.5 ;  \Pr(H) = 0.5</math>
Line 73: Line 73:
यह कार्यात्मक रूप से यह पूछने के बराबर है कि स्पैम संदेशों में प्रतिकृति शब्द की कितनी प्रतिशत घटनाएँ दिखाई देती हैं?
यह कार्यात्मक रूप से यह पूछने के बराबर है कि स्पैम संदेशों में प्रतिकृति शब्द की कितनी प्रतिशत घटनाएँ दिखाई देती हैं?


इस मात्रा को प्रतिकृति शब्द की स्पैमसिटी (या स्पैमनेस) कहा जाता है, और इसकी गणना की जा सकती है। जो नंबर <math>\Pr(W|S)</math> इस सूत्र में उपयोग किए गए संदेशों को सीखने के चरण के दौरान स्पैम के रूप में पहचाने गए संदेशों में प्रतिकृति वाले संदेशों की आवृत्ति का अनुमान लगाया गया है। इसी प्रकार, <math>\Pr(W|H)</math> सीखने के चरण के दौरान हैम के रूप में पहचाने गए संदेशों में प्रतिकृति वाले संदेशों की आवृत्ति का अनुमान लगाया गया है। इन अनुमानों को समझने के लिए, सीखे गए संदेशों का सेट बड़ा और पर्याप्त प्रतिनिधि होना आवश्यक है। यह भी सलाह दी जाती है कि संदेशों का सीखा हुआ सेट स्पैम और हैम के बीच पुनर्विभाजन के बारे में 50% परिकल्पना के अनुरूप हो, यानी कि स्पैम और हैम के डेटासेट एक ही आकार के हों।<ref>Process Software, [http://www.process.com/precisemail/bayesian_filtering.htm Introduction to Bayesian Filtering] {{Webarchive|url=https://web.archive.org/web/20120206032703/http://www.process.com/precisemail/bayesian_filtering.htm |date=2012-02-06 }}</ref>
इस मात्रा को प्रतिकृति शब्द की स्पैमसिटी (या स्पैमनेस) कहा जाता है, और इसकी गणना की जा सकती है। जो नंबर <math>\Pr(W|S)</math> इस सूत्र में उपयोग किए गए संदेशों को सीखने के चरण के दौरान स्पैम के रूप में पहचाने गए संदेशों में प्रतिकृति वाले संदेशों की आवृत्ति का अनुमान लगाया गया है। इसी प्रकार, <math>\Pr(W|H)</math> सीखने के चरण के दौरान हैम के रूप में पहचाने गए संदेशों में प्रतिकृति वाले संदेशों की आवृत्ति का अनुमान लगाया गया है। इन अनुमानों को समझने के लिए, सीखे गए संदेशों का सेट बड़ा और पर्याप्त प्रतिनिधि होना आवश्यक है। यह भी सलाह दी जाती है कि संदेशों का सीखा हुआ सेट स्पैम और हैम के बीच पुनर्विभाजन के बारे में 50% परिकल्पना के अनुरूप हो, यानी कि स्पैम और हैम के डेटासेट ही आकार के हों।<ref>Process Software, [http://www.process.com/precisemail/bayesian_filtering.htm Introduction to Bayesian Filtering] {{Webarchive|url=https://web.archive.org/web/20120206032703/http://www.process.com/precisemail/bayesian_filtering.htm |date=2012-02-06 }}</ref>
बेशक, प्रतिकृति शब्द की उपस्थिति के आधार पर यह निर्धारित करना कि कोई संदेश स्पैम है या हैम, त्रुटि-प्रवण है, यही कारण है कि बायेसियन स्पैम सॉफ़्टवेयर किसी संदेश के स्पैम होने की समग्र संभावना निर्धारित करने के लिए कई शब्दों पर विचार करने और उनकी स्पैमिसिटी को संयोजित करने का प्रयास करता है।
बेशक, प्रतिकृति शब्द की उपस्थिति के आधार पर यह निर्धारित करना कि कोई संदेश स्पैम है या हैम, त्रुटि-प्रवण है, यही कारण है कि बायेसियन स्पैम सॉफ़्टवेयर किसी संदेश के स्पैम होने की समग्र संभावना निर्धारित करने के लिए कई शब्दों पर विचार करने और उनकी स्पैमिसिटी को संयोजित करने का प्रयास करता है।


===व्यक्तिगत संभावनाओं का संयोजन===
===व्यक्तिगत संभावनाओं का संयोजन===
अधिकांश बायेसियन स्पैम फ़िल्टरिंग एल्गोरिदम उन फ़ार्मुलों पर आधारित होते हैं जो केवल तभी मान्य होते हैं (संभाव्य दृष्टिकोण से) यदि संदेश में मौजूद शब्द [[सांख्यिकीय स्वतंत्रता]] हैं। यह स्थिति आम तौर पर संतुष्ट नहीं होती है (उदाहरण के लिए, अंग्रेजी जैसी प्राकृतिक भाषाओं में विशेषण खोजने की संभावना संज्ञा होने की संभावना से प्रभावित होती है), लेकिन यह एक उपयोगी आदर्शीकरण है, खासकर जब से व्यक्तिगत शब्दों के बीच सांख्यिकीय सहसंबंध आमतौर पर नहीं होते हैं ज्ञात। इस आधार पर, बेयस प्रमेय से निम्नलिखित सूत्र प्राप्त किया जा सकता है:
अधिकांश बायेसियन स्पैम फ़िल्टरिंग एल्गोरिदम उन फ़ार्मुलों पर आधारित होते हैं जो केवल तभी मान्य होते हैं (संभाव्य दृष्टिकोण से) यदि संदेश में मौजूद शब्द [[सांख्यिकीय स्वतंत्रता]] हैं। यह स्थिति आम तौर पर संतुष्ट नहीं होती है (उदाहरण के लिए, अंग्रेजी जैसी प्राकृतिक भाषाओं में विशेषण खोजने की संभावना संज्ञा होने की संभावना से प्रभावित होती है), लेकिन यह उपयोगी आदर्शीकरण है, खासकर जब से व्यक्तिगत शब्दों के बीच सांख्यिकीय सहसंबंध आमतौर पर नहीं होते हैं ज्ञात। इस आधार पर, बेयस प्रमेय से निम्नलिखित सूत्र प्राप्त किया जा सकता है:


:<math>p = \frac{p_1 p_2 \cdots p_N}{p_1 p_2 \cdots p_N + (1 - p_1)(1 - p_2) \cdots (1 - p_N)}</math>
:<math>p = \frac{p_1 p_2 \cdots p_N}{p_1 p_2 \cdots p_N + (1 - p_1)(1 - p_2) \cdots (1 - p_N)}</math>
Line 106: Line 106:
यदि कोई शब्द सीखने के चरण के दौरान कभी नहीं मिला है, तो सामान्य सूत्र और स्पैमिसिटी सूत्र दोनों में अंश और हर दोनों शून्य के बराबर हैं। सॉफ़्टवेयर ऐसे शब्दों को हटाने का निर्णय ले सकता है जिनके बारे में कोई जानकारी उपलब्ध नहीं है।
यदि कोई शब्द सीखने के चरण के दौरान कभी नहीं मिला है, तो सामान्य सूत्र और स्पैमिसिटी सूत्र दोनों में अंश और हर दोनों शून्य के बराबर हैं। सॉफ़्टवेयर ऐसे शब्दों को हटाने का निर्णय ले सकता है जिनके बारे में कोई जानकारी उपलब्ध नहीं है।


आम तौर पर, सीखने के चरण के दौरान केवल कुछ ही बार सामने आए शब्द समस्या का कारण बनते हैं, क्योंकि उनके द्वारा प्रदान की गई जानकारी पर आँख बंद करके भरोसा करना एक गलती होगी। एक सरल उपाय यह है कि ऐसे अविश्वसनीय शब्दों को भी ध्यान में न रखा जाए।
आम तौर पर, सीखने के चरण के दौरान केवल कुछ ही बार सामने आए शब्द समस्या का कारण बनते हैं, क्योंकि उनके द्वारा प्रदान की गई जानकारी पर आँख बंद करके भरोसा करना गलती होगी। सरल उपाय यह है कि ऐसे अविश्वसनीय शब्दों को भी ध्यान में न रखा जाए।


बेयस प्रमेय को फिर से लागू करना, और किसी दिए गए शब्द (प्रतिकृति) वाले ईमेल के स्पैम और हैम के बीच वर्गीकरण को [[बीटा वितरण]] के साथ एक यादृच्छिक चर मानते हुए, कुछ प्रोग्राम एक सही संभावना का उपयोग करने का निर्णय लेते हैं:
बेयस प्रमेय को फिर से लागू करना, और किसी दिए गए शब्द (प्रतिकृति) वाले ईमेल के स्पैम और हैम के बीच वर्गीकरण को [[बीटा वितरण]] के साथ यादृच्छिक चर मानते हुए, कुछ प्रोग्राम सही संभावना का उपयोग करने का निर्णय लेते हैं:


:<math>\Pr'(S|W) = \frac{s \cdot \Pr(S) + n \cdot \Pr(S|W)}{s + n }</math>
:<math>\Pr'(S|W) = \frac{s \cdot \Pr(S) + n \cdot \Pr(S|W)}{s + n }</math>
कहाँ:
कहाँ:
*<math>\Pr'(S|W)</math> संदेश के स्पैम होने की सही संभावना है, यह जानते हुए कि इसमें एक दिया गया शब्द है;
*<math>\Pr'(S|W)</math> संदेश के स्पैम होने की सही संभावना है, यह जानते हुए कि इसमें दिया गया शब्द है;
* <math>s</math> यह वह ताकत है जो हम आने वाले स्पैम के बारे में पृष्ठभूमि जानकारी को देते हैं;
* <math>s</math> यह वह ताकत है जो हम आने वाले स्पैम के बारे में पृष्ठभूमि जानकारी को देते हैं;
* <math>\Pr(S)</math> किसी भी आने वाले संदेश के स्पैम होने की संभावना है;
* <math>\Pr(S)</math> किसी भी आने वाले संदेश के स्पैम होने की संभावना है;
Line 122: Line 122:
संयोजन सूत्र में स्पैमिसिटी के स्थान पर इस संशोधित संभाव्यता का उपयोग किया जाता है।
संयोजन सूत्र में स्पैमिसिटी के स्थान पर इस संशोधित संभाव्यता का उपयोग किया जाता है।


<math>\Pr(S)</math> आने वाली ईमेल के बारे में अत्यधिक संदेह से बचने के लिए, इसे फिर से 0.5 के बराबर लिया जा सकता है। 3, s के लिए एक अच्छा मान है, जिसका अर्थ है कि सीखे गए कॉर्पस में डिफ़ॉल्ट मान की तुलना में स्पैमिसिटी मान पर अधिक विश्वास रखने के लिए उस शब्द के साथ 3 से अधिक संदेश होने चाहिए।{{citation needed|reason=Why 3 and not 4, or 42?|date=July 2016}}.
<math>\Pr(S)</math> आने वाली ईमेल के बारे में अत्यधिक संदेह से बचने के लिए, इसे फिर से 0.5 के बराबर लिया जा सकता है। 3, s के लिए अच्छा मान है, जिसका अर्थ है कि सीखे गए कॉर्पस में डिफ़ॉल्ट मान की तुलना में स्पैमिसिटी मान पर अधिक विश्वास रखने के लिए उस शब्द के साथ 3 से अधिक संदेश होने चाहिए।.


इस सूत्र को उस स्थिति तक बढ़ाया जा सकता है जहां n शून्य के बराबर है (और जहां स्पैमिसिटी परिभाषित नहीं है), और इस मामले में मूल्यांकन करता है <math>Pr(S)</math>.
इस सूत्र को उस स्थिति तक बढ़ाया जा सकता है जहां n शून्य के बराबर है (और जहां स्पैमिसिटी परिभाषित नहीं है), और इस मामले में मूल्यांकन करता है <math>Pr(S)</math>.


===अन्य अनुमान===
===अन्य अनुमान===
  तटस्थ शब्द जैसे , a , some , या is (अंग्रेजी में), या अन्य भाषाओं में उनके समकक्षों को नजरअंदाज किया जा सकता है। इन्हें [[ शब्द बंद करो ]] के नाम से भी जाना जाता है। अधिक आम तौर पर, कुछ बायेसियन फ़िल्टरिंग फ़िल्टर उन सभी शब्दों को अनदेखा कर देते हैं जिनकी स्पैमिसिटी 0.5 के आगे होती है, क्योंकि वे एक अच्छे निर्णय में बहुत कम योगदान देते हैं। विचार किए गए शब्द वे हैं जिनकी स्पैमसिटी 0.0 (वैध संदेशों के विशिष्ट संकेत) के बगल में है, या 1.0 (स्पैम के विशिष्ट संकेत) के बगल में है। उदाहरण के लिए एक विधि यह हो सकती है कि जांचे गए संदेश में केवल उन्हीं दस शब्दों को रखा जाए, जिनका निरपेक्ष मान सबसे बड़ा हो |0.5 − pI|
  तटस्थ शब्द जैसे , a , some , या is (अंग्रेजी में), या अन्य भाषाओं में उनके समकक्षों को नजरअंदाज किया जा सकता है। इन्हें [[ शब्द बंद करो |शब्द बंद करो]] के नाम से भी जाना जाता है। अधिक आम तौर पर, कुछ बायेसियन फ़िल्टरिंग फ़िल्टर उन सभी शब्दों को अनदेखा कर देते हैं जिनकी स्पैमिसिटी 0.5 के आगे होती है, क्योंकि वे अच्छे निर्णय में बहुत कम योगदान देते हैं। विचार किए गए शब्द वे हैं जिनकी स्पैमसिटी 0.0 (वैध संदेशों के विशिष्ट संकेत) के बगल में है, या 1.0 (स्पैम के विशिष्ट संकेत) के बगल में है। उदाहरण के लिए विधि यह हो सकती है कि जांचे गए संदेश में केवल उन्हीं दस शब्दों को रखा जाए, जिनका निरपेक्ष मान सबसे बड़ा हो |0.5 − pI|


कुछ सॉफ़्टवेयर उत्पाद इस तथ्य को ध्यान में रखते हैं कि जांचे गए संदेश में एक दिया गया शब्द कई बार दिखाई देता है,<ref>{{cite web|url=http://spamprobe.sourceforge.net/paper.html|author=Brian Burton|title=स्पैमप्रोब - बायेसियन स्पैम फ़िल्टरिंग बदलाव|year=2003|access-date=2009-01-19|archive-url=https://web.archive.org/web/20120301235828/http://spamprobe.sourceforge.net/paper.html|archive-date=2012-03-01|url-status=live}}</ref> अन्य नहीं.
कुछ सॉफ़्टवेयर उत्पाद इस तथ्य को ध्यान में रखते हैं कि जांचे गए संदेश में दिया गया शब्द कई बार दिखाई देता है,<ref>{{cite web|url=http://spamprobe.sourceforge.net/paper.html|author=Brian Burton|title=स्पैमप्रोब - बायेसियन स्पैम फ़िल्टरिंग बदलाव|year=2003|access-date=2009-01-19|archive-url=https://web.archive.org/web/20120301235828/http://spamprobe.sourceforge.net/paper.html|archive-date=2012-03-01|url-status=live}}</ref> अन्य नहीं.


कुछ सॉफ़्टवेयर उत्पाद अलग-अलग प्राकृतिक भाषाओं के शब्दों के बजाय पैटर्न (शब्दों के अनुक्रम) का उपयोग करते हैं।<ref>{{cite web|url=http://bnr.nuclearelephant.com/l|author=Jonathan A. Zdziarski|title=Bayesian Noise Reduction: Contextual Symmetry Logic Utilizing Pattern Consistency Analysis|year=2004}}{{dead link|date=February 2018 |bot=InternetArchiveBot |fix-attempted=yes }}</ref> उदाहरण के लिए, चार शब्दों की एक संदर्भ विंडो के साथ, वे वियाग्रा की स्पैमिसिटी की गणना करते हैं, इसके लिए अच्छा है, वियाग्रा की स्पैमिसिटी की गणना करने के बजाय, है, अच्छा है, और के लिए है। यह विधि संदर्भ के प्रति अधिक संवेदनशीलता देती है और बड़े डेटाबेस की कीमत पर बायेसियन शोर को बेहतर ढंग से समाप्त करती है।
कुछ सॉफ़्टवेयर उत्पाद अलग-अलग प्राकृतिक भाषाओं के शब्दों के बजाय पैटर्न (शब्दों के अनुक्रम) का उपयोग करते हैं।<ref>{{cite web|url=http://bnr.nuclearelephant.com/l|author=Jonathan A. Zdziarski|title=Bayesian Noise Reduction: Contextual Symmetry Logic Utilizing Pattern Consistency Analysis|year=2004}}{{dead link|date=February 2018 |bot=InternetArchiveBot |fix-attempted=yes }}</ref> उदाहरण के लिए, चार शब्दों की संदर्भ विंडो के साथ, वे वियाग्रा की स्पैमिसिटी की गणना करते हैं, इसके लिए अच्छा है, वियाग्रा की स्पैमिसिटी की गणना करने के बजाय, है, अच्छा है, और के लिए है। यह विधि संदर्भ के प्रति अधिक संवेदनशीलता देती है और बड़े डेटाबेस की कीमत पर बायेसियन शोर को बेहतर ढंग से समाप्त करती है।


===मिश्रित विधियाँ===
===मिश्रित विधियाँ===
Line 146: Line 146:


===फायदे===
===फायदे===
{{disputed section|date=May 2013}}
मुख्य फायदों में से एक{{citation needed|date=May 2013}बायेसियन स्पैम फ़िल्टरिंग की विशेषता यह है कि इसे प्रति-उपयोगकर्ता के आधार पर प्रशिक्षित किया जा सकता है।
मुख्य फायदों में से एक{{citation needed|date=May 2013}बायेसियन स्पैम फ़िल्टरिंग की विशेषता यह है कि इसे प्रति-उपयोगकर्ता के आधार पर प्रशिक्षित किया जा सकता है।


Line 155: Line 154:
संभाव्यता शब्द प्रत्येक उपयोगकर्ता के लिए अद्वितीय है और जब भी फ़िल्टर किसी ईमेल को गलत तरीके से वर्गीकृत करता है तो सुधारात्मक प्रशिक्षण के साथ समय के साथ विकसित हो सकता है। परिणामस्वरूप, प्रशिक्षण के बाद बायेसियन स्पैम फ़िल्टरिंग सटीकता अक्सर पूर्व-निर्धारित नियमों से बेहतर होती है।
संभाव्यता शब्द प्रत्येक उपयोगकर्ता के लिए अद्वितीय है और जब भी फ़िल्टर किसी ईमेल को गलत तरीके से वर्गीकृत करता है तो सुधारात्मक प्रशिक्षण के साथ समय के साथ विकसित हो सकता है। परिणामस्वरूप, प्रशिक्षण के बाद बायेसियन स्पैम फ़िल्टरिंग सटीकता अक्सर पूर्व-निर्धारित नियमों से बेहतर होती है।


यह झूठी सकारात्मकताओं से बचने में विशेष रूप से अच्छा प्रदर्शन कर सकता है,{{citation needed|date=May 2013}} जहां वैध ईमेल को गलत तरीके से स्पैम के रूप में वर्गीकृत किया गया है। उदाहरण के लिए, यदि ईमेल में नाइजीरिया शब्द शामिल है, जिसका उपयोग अक्सर एडवांस शुल्क धोखाधड़ी स्पैम में किया जाता है, तो पूर्व-परिभाषित नियम फ़िल्टर इसे पूरी तरह से अस्वीकार कर सकता है। बायेसियन फ़िल्टर नाइजीरिया शब्द को संभावित स्पैम शब्द के रूप में चिह्नित करेगा, लेकिन अन्य महत्वपूर्ण शब्दों को ध्यान में रखेगा जो आमतौर पर वैध ई-मेल का संकेत देते हैं। उदाहरण के लिए, जीवनसाथी का नाम दृढ़ता से संकेत दे सकता है कि ई-मेल स्पैम नहीं है, जो नाइजीरिया शब्द के उपयोग पर काबू पा सकता है।
यह झूठी सकारात्मकताओं से बचने में विशेष रूप से अच्छा प्रदर्शन कर सकता है, जहां वैध ईमेल को गलत तरीके से स्पैम के रूप में वर्गीकृत किया गया है। उदाहरण के लिए, यदि ईमेल में नाइजीरिया शब्द शामिल है, जिसका उपयोग अक्सर एडवांस शुल्क धोखाधड़ी स्पैम में किया जाता है, तो पूर्व-परिभाषित नियम फ़िल्टर इसे पूरी तरह से अस्वीकार कर सकता है। बायेसियन फ़िल्टर नाइजीरिया शब्द को संभावित स्पैम शब्द के रूप में चिह्नित करेगा, लेकिन अन्य महत्वपूर्ण शब्दों को ध्यान में रखेगा जो आमतौर पर वैध ई-मेल का संकेत देते हैं। उदाहरण के लिए, जीवनसाथी का नाम दृढ़ता से संकेत दे सकता है कि ई-मेल स्पैम नहीं है, जो नाइजीरिया शब्द के उपयोग पर काबू पा सकता है।


===नुकसान===
===नुकसान===
कार्यान्वयन के आधार पर, बायेसियन स्पैम फ़िल्टरिंग [[बायेसियन विषाक्तता]] के प्रति संवेदनशील हो सकती है, स्पैमर्स द्वारा बायेसियन फ़िल्टरिंग पर निर्भर स्पैम फ़िल्टर की प्रभावशीलता को कम करने के प्रयास में उपयोग की जाने वाली तकनीक। बायेसियन विषाक्तता का अभ्यास करने वाला एक स्पैमर बड़ी मात्रा में वैध पाठ (वैध समाचार या साहित्यिक स्रोतों से एकत्रित) के साथ ईमेल भेजेगा। [[ ईमेल स्पैम ]] रणनीति में बेतरतीब अहानिकर शब्दों का सम्मिलन शामिल है जो आम तौर पर स्पैम से जुड़े नहीं होते हैं, जिससे ईमेल का स्पैम स्कोर कम हो जाता है, जिससे बायेसियन स्पैम फ़िल्टर से आगे निकल जाने की संभावना बढ़ जाती है। हालाँकि, (उदाहरण के लिए) पॉल ग्राहम की योजना में केवल सबसे महत्वपूर्ण संभावनाओं का उपयोग किया जाता है, ताकि पाठ को गैर-स्पैम-संबंधित शब्दों के साथ भरने से पता लगाने की संभावना महत्वपूर्ण रूप से प्रभावित न हो।
कार्यान्वयन के आधार पर, बायेसियन स्पैम फ़िल्टरिंग [[बायेसियन विषाक्तता]] के प्रति संवेदनशील हो सकती है, स्पैमर्स द्वारा बायेसियन फ़िल्टरिंग पर निर्भर स्पैम फ़िल्टर की प्रभावशीलता को कम करने के प्रयास में उपयोग की जाने वाली तकनीक। बायेसियन विषाक्तता का अभ्यास करने वाला स्पैमर बड़ी मात्रा में वैध पाठ (वैध समाचार या साहित्यिक स्रोतों से एकत्रित) के साथ ईमेल भेजेगा। [[ ईमेल स्पैम |ईमेल स्पैम]] रणनीति में बेतरतीब अहानिकर शब्दों का सम्मिलन शामिल है जो आम तौर पर स्पैम से जुड़े नहीं होते हैं, जिससे ईमेल का स्पैम स्कोर कम हो जाता है, जिससे बायेसियन स्पैम फ़िल्टर से आगे निकल जाने की संभावना बढ़ जाती है। हालाँकि, (उदाहरण के लिए) पॉल ग्राहम की योजना में केवल सबसे महत्वपूर्ण संभावनाओं का उपयोग किया जाता है, ताकि पाठ को गैर-स्पैम-संबंधित शब्दों के साथ भरने से पता लगाने की संभावना महत्वपूर्ण रूप से प्रभावित न हो।


जो शब्द आम तौर पर स्पैम में बड़ी मात्रा में दिखाई देते हैं, उन्हें स्पैमर द्वारा रूपांतरित भी किया जा सकता है। उदाहरण के लिए, स्पैम संदेश में "वियाग्रा" को "वियाग्रा" या "वी!आग्रा" से बदल दिया जाएगा। संदेश का प्राप्तकर्ता अभी भी बदले हुए शब्दों को पढ़ सकता है, लेकिन इनमें से प्रत्येक शब्द बायेसियन फ़िल्टर से बहुत कम मिलता है, जो इसकी सीखने की प्रक्रिया में बाधा डालता है। एक सामान्य नियम के रूप में, यह स्पैमिंग तकनीक बहुत अच्छी तरह से काम नहीं करती है, क्योंकि व्युत्पन्न शब्द सामान्य शब्दों की तरह ही फ़िल्टर द्वारा पहचाने जाते हैं।<ref>Paul Graham (2002), [http://www.paulgraham.com/spam.html A Plan for Spam] {{Webarchive|url=https://web.archive.org/web/20040404013856/http://www.paulgraham.com/spam.html |date=2004-04-04 }}</ref>
जो शब्द आम तौर पर स्पैम में बड़ी मात्रा में दिखाई देते हैं, उन्हें स्पैमर द्वारा रूपांतरित भी किया जा सकता है। उदाहरण के लिए, स्पैम संदेश में "वियाग्रा" को "वियाग्रा" या "वी!आग्रा" से बदल दिया जाएगा। संदेश का प्राप्तकर्ता अभी भी बदले हुए शब्दों को पढ़ सकता है, लेकिन इनमें से प्रत्येक शब्द बायेसियन फ़िल्टर से बहुत कम मिलता है, जो इसकी सीखने की प्रक्रिया में बाधा डालता है। सामान्य नियम के रूप में, यह स्पैमिंग तकनीक बहुत अच्छी तरह से काम नहीं करती है, क्योंकि व्युत्पन्न शब्द सामान्य शब्दों की तरह ही फ़िल्टर द्वारा पहचाने जाते हैं।<ref>Paul Graham (2002), [http://www.paulgraham.com/spam.html A Plan for Spam] {{Webarchive|url=https://web.archive.org/web/20040404013856/http://www.paulgraham.com/spam.html |date=2004-04-04 }}</ref>
बायेसियन स्पैम फ़िल्टर को हराने के लिए इस्तेमाल की जाने वाली एक अन्य तकनीक टेक्स्ट को सीधे शामिल या लिंक किए गए चित्रों से बदलना है। संदेश का पूरा पाठ, या उसका कुछ भाग, एक चित्र से बदल दिया जाता है जहाँ वही पाठ खींचा जाता है। स्पैम फ़िल्टर आमतौर पर इस तस्वीर का विश्लेषण करने में असमर्थ है, जिसमें «वियाग्रा» जैसे संवेदनशील शब्द होंगे। हालाँकि, चूंकि कई मेल क्लाइंट सुरक्षा कारणों से लिंक की गई तस्वीरों के प्रदर्शन को अक्षम कर देते हैं, इसलिए दूर की तस्वीरों के लिंक भेजने वाला स्पैमर कम लक्ष्यों तक पहुंच सकता है। साथ ही, बाइट्स में एक चित्र का आकार समतुल्य पाठ के आकार से बड़ा होता है, इसलिए स्पैमर को चित्रों सहित सीधे संदेश भेजने के लिए अधिक बैंडविड्थ की आवश्यकता होती है। कुछ फ़िल्टर यह तय करने में अधिक इच्छुक होते हैं कि कोई संदेश स्पैम है यदि उसमें अधिकतर ग्राफ़िकल सामग्री है। [[Google]] द्वारा अपने [[ जीमेल लगीं ]] ईमेल सिस्टम में उपयोग किया जाने वाला एक समाधान प्रत्येक मध्य से बड़े आकार की छवि पर एक [[ऑप्टिकल कैरेक्टर मान्यता]]|ओसीआर (ऑप्टिकल कैरेक्टर रिकग्निशन) निष्पादित करना है, जिसमें अंदर के टेक्स्ट का विश्लेषण किया जाता है।<ref>{{cite web|url=http://www.google.com/mail/help/intl/en_GB/fightspam/spamexplained.html|title=जीमेल आपके इनबॉक्स से स्पैम को दूर रखने के लिए Google की नवीन तकनीक का उपयोग करता है|access-date=2015-09-05|archive-url=https://web.archive.org/web/20150913070222/http://www.google.com/mail/help/intl/en_GB/fightspam/spamexplained.html|archive-date=2015-09-13|url-status=live}}</ref><ref>{{cite journal|last1=Zhu|first1=Z.|last2=Jia|first2=Z|last3=Xiao|first3=H|last4=Zhang|first4=G|last5=Liang|first5=H.|last6=Wang|first6=P.|editor1-last=Li|editor1-first=S|editor2-last=Jin|editor2-first=Q|editor3-last=Jiang|editor3-first=X|editor4-last=Park|editor4-first=J|editor1-link=Frontier and Future Development of Information Technology in Medicine and Education. Lecture Notes in Electrical Engineering|title=एक संशोधित न्यूनतम जोखिम आधार और स्पैम में इसका अनुप्रयोग|journal=Lecture Notes in Electrical Engineering|date=2014|volume=269|pages=2155–2159|doi=10.1007/978-94-007-7618-0_261|publisher=Springer|location=Dordrecht|language=en}}</ref>
बायेसियन स्पैम फ़िल्टर को हराने के लिए इस्तेमाल की जाने वाली अन्य तकनीक टेक्स्ट को सीधे शामिल या लिंक किए गए चित्रों से बदलना है। संदेश का पूरा पाठ, या उसका कुछ भाग, चित्र से बदल दिया जाता है जहाँ वही पाठ खींचा जाता है। स्पैम फ़िल्टर आमतौर पर इस तस्वीर का विश्लेषण करने में असमर्थ है, जिसमें «वियाग्रा» जैसे संवेदनशील शब्द होंगे। हालाँकि, चूंकि कई मेल क्लाइंट सुरक्षा कारणों से लिंक की गई तस्वीरों के प्रदर्शन को अक्षम कर देते हैं, इसलिए दूर की तस्वीरों के लिंक भेजने वाला स्पैमर कम लक्ष्यों तक पहुंच सकता है। साथ ही, बाइट्स में चित्र का आकार समतुल्य पाठ के आकार से बड़ा होता है, इसलिए स्पैमर को चित्रों सहित सीधे संदेश भेजने के लिए अधिक बैंडविड्थ की आवश्यकता होती है। कुछ फ़िल्टर यह तय करने में अधिक इच्छुक होते हैं कि कोई संदेश स्पैम है यदि उसमें अधिकतर ग्राफ़िकल सामग्री है। [[Google]] द्वारा अपने [[ जीमेल लगीं |जीमेल लगीं]] ईमेल सिस्टम में उपयोग किया जाने वाला समाधान प्रत्येक मध्य से बड़े आकार की छवि पर [[ऑप्टिकल कैरेक्टर मान्यता]]|ओसीआर (ऑप्टिकल कैरेक्टर रिकग्निशन) निष्पादित करना है, जिसमें अंदर के टेक्स्ट का विश्लेषण किया जाता है।<ref>{{cite web|url=http://www.google.com/mail/help/intl/en_GB/fightspam/spamexplained.html|title=जीमेल आपके इनबॉक्स से स्पैम को दूर रखने के लिए Google की नवीन तकनीक का उपयोग करता है|access-date=2015-09-05|archive-url=https://web.archive.org/web/20150913070222/http://www.google.com/mail/help/intl/en_GB/fightspam/spamexplained.html|archive-date=2015-09-13|url-status=live}}</ref><ref>{{cite journal|last1=Zhu|first1=Z.|last2=Jia|first2=Z|last3=Xiao|first3=H|last4=Zhang|first4=G|last5=Liang|first5=H.|last6=Wang|first6=P.|editor1-last=Li|editor1-first=S|editor2-last=Jin|editor2-first=Q|editor3-last=Jiang|editor3-first=X|editor4-last=Park|editor4-first=J|editor1-link=Frontier and Future Development of Information Technology in Medicine and Education. Lecture Notes in Electrical Engineering|title=एक संशोधित न्यूनतम जोखिम आधार और स्पैम में इसका अनुप्रयोग|journal=Lecture Notes in Electrical Engineering|date=2014|volume=269|pages=2155–2159|doi=10.1007/978-94-007-7618-0_261|publisher=Springer|location=Dordrecht|language=en}}</ref>




==बायेसियन फ़िल्टरिंग के सामान्य अनुप्रयोग==
==बायेसियन फ़िल्टरिंग के सामान्य अनुप्रयोग==
जबकि बायेसियन फ़िल्टरिंग का उपयोग स्पैम ईमेल की पहचान करने के लिए व्यापक रूप से किया जाता है, तकनीक लगभग किसी भी प्रकार के डेटा को वर्गीकृत (या क्लस्टर) कर सकती है। इसका विज्ञान, चिकित्सा और इंजीनियरिंग में उपयोग होता है। एक उदाहरण एक सामान्य प्रयोजन वर्गीकरण कार्यक्रम है जिसे [http://ti.arc.nasa.gov/tech/rse/sensitive-projects-applications/autoclass/ AutoClass] कहा जाता है, जिसका उपयोग मूल रूप से वर्णक्रमीय विशेषताओं के अनुसार सितारों को वर्गीकृत करने के लिए किया जाता था जो अन्यथा थे नोटिस करने के लिए बहुत सूक्ष्म.
जबकि बायेसियन फ़िल्टरिंग का उपयोग स्पैम ईमेल की पहचान करने के लिए व्यापक रूप से किया जाता है, तकनीक लगभग किसी भी प्रकार के डेटा को वर्गीकृत (या क्लस्टर) कर सकती है। इसका विज्ञान, चिकित्सा और इंजीनियरिंग में उपयोग होता है। उदाहरण सामान्य प्रयोजन वर्गीकरण कार्यक्रम है जिसे [http://ti.arc.nasa.gov/tech/rse/sensitive-projects-applications/autoclass/ AutoClass] कहा जाता है, जिसका उपयोग मूल रूप से वर्णक्रमीय विशेषताओं के अनुसार सितारों को वर्गीकृत करने के लिए किया जाता था जो अन्यथा थे नोटिस करने के लिए बहुत सूक्ष्म.


<रेफरी नाम= एंड्राउट्सोपोलोस; स्पैम फ़िल्टर करना सीखना >{{cite journal|last1=Androutsopoulos|first1=Ion|last2=Paliouras|first2=Georgios|last3=Karkaletsis|first3=Vangelis|last4=Sakkis|first4=Georgios|last5=Spyropoulos|first5=Constantine D.|last6=Stamatopoulos|first6=Panagiotis|editor1-last=Gallinari|editor1-first=P|editor2-last=Rajman|editor2-first=M|editor3-last=Zaragoza|editor3-first=H|editor1-link=Machine Learning and Textual Information Access|title=स्पैम ई-मेल को फ़िल्टर करना सीखना: एक अनुभवहीन बायेसियन और एक मेमोरी-आधारित दृष्टिकोण की तुलना|journal=4th European Conference on Principles and Practice of Knowledge Discovery in Databases (PKDD-2000)|date=2000|pages=1–13|publisher=Software and Knowledge Engineering Laboratory Institute of Informatics and Telecommunications National Centre for Scientific Research “Demokritos”|location=Lyon, France|arxiv=cs/0009009|bibcode=2000cs........9009A}}</ref>
<रेफरी नाम= एंड्राउट्सोपोलोस; स्पैम फ़िल्टर करना सीखना >{{cite journal|last1=Androutsopoulos|first1=Ion|last2=Paliouras|first2=Georgios|last3=Karkaletsis|first3=Vangelis|last4=Sakkis|first4=Georgios|last5=Spyropoulos|first5=Constantine D.|last6=Stamatopoulos|first6=Panagiotis|editor1-last=Gallinari|editor1-first=P|editor2-last=Rajman|editor2-first=M|editor3-last=Zaragoza|editor3-first=H|editor1-link=Machine Learning and Textual Information Access|title=स्पैम ई-मेल को फ़िल्टर करना सीखना: एक अनुभवहीन बायेसियन और एक मेमोरी-आधारित दृष्टिकोण की तुलना|journal=4th European Conference on Principles and Practice of Knowledge Discovery in Databases (PKDD-2000)|date=2000|pages=1–13|publisher=Software and Knowledge Engineering Laboratory Institute of Informatics and Telecommunications National Centre for Scientific Research “Demokritos”|location=Lyon, France|arxiv=cs/0009009|bibcode=2000cs........9009A}}</ref>

Revision as of 17:23, 16 July 2023

Naive Bayes क्लासिफायर ई-मेल फ़िल्टरिंग की लोकप्रिय सांख्यिकी वैज्ञानिक तकनीक है। वे आम तौर पर ईमेल स्पैम की पहचान करने के लिए बैग-ऑफ-वर्ड्स मॉडल | बैग-ऑफ-वर्ड्स सुविधाओं का उपयोग करते हैं, जो आमतौर पर दस्तावेज़ वर्गीकरण में उपयोग किया जाता है।

नाइव बेयस क्लासिफायरियर स्पैम और गैर-स्पैम ई-मेल के साथ टोकन (आमतौर पर शब्द, या कभी-कभी अन्य चीजें) के उपयोग को सहसंबंधित करके काम करते हैं और फिर ईमेल के स्पैम होने या न होने की संभावना की गणना करने के लिए बेयस प्रमेय का उपयोग करते हैं।

Naive Bayes स्पैम फ़िल्टरिंग स्पैम से निपटने के लिए आधारभूत तकनीक है जो व्यक्तिगत उपयोगकर्ताओं की ईमेल आवश्यकताओं के अनुरूप हो सकती है और कम झूठी सकारात्मक स्पैम पहचान दर दे सकती है जो आम तौर पर उपयोगकर्ताओं के लिए स्वीकार्य होती है। यह स्पैम फ़िल्टरिंग करने के सबसे पुराने तरीकों में से है, जिसकी जड़ें 1990 के दशक में थीं।

इतिहास

बायेसियन एल्गोरिदम का उपयोग 1996 की शुरुआत में ईमेल फ़िल्टरिंग के लिए किया गया था। हालाँकि बाद में बायेसियन फ़िल्टर लोकप्रिय नहीं हुए, लेकिन अवांछित ईमेल की बढ़ती समस्या का समाधान करने के लिए 1998 में कई कार्यक्रम जारी किए गए।[1] बायेसियन स्पैम फ़िल्टरिंग पर पहला विद्वतापूर्ण प्रकाशन सहामी एट अल द्वारा किया गया था। 1998 में।[2] इसके तुरंत बाद उस कार्य को वाणिज्यिक स्पैम फ़िल्टर में तैनात कर दिया गया।

बुनियादी तकनीक के वेरिएंट को कई शोध कार्यों और वाणिज्यिक कंप्यूटर सॉफ्टवेयर उत्पादों में लागू किया गया है।[3] कई आधुनिक मेल क्लाइंट (कंप्यूटिंग) बायेसियन स्पैम फ़िल्टरिंग लागू करते हैं। उपयोगकर्ता अलग ई-मेल फ़िल्टरिंग भी स्थापित कर सकते हैं। सर्वर साइड ईमेल फ़िल्टर, जैसे DSPAM, SpamAssassin,[4] स्पैमबेयस,[5] बोगो फ़िल्टर और एंटी-स्पैम एसएमटीपी प्रॉक्सी, बायेसियन स्पैम फ़िल्टरिंग तकनीकों का उपयोग करते हैं, और कार्यक्षमता कभी-कभी डाक सर्वर सॉफ़्टवेयर के भीतर ही एम्बेडेड होती है। CRM114 (प्रोग्राम), जिसे अक्सर बायेसियन फ़िल्टर के रूप में उद्धृत किया जाता है, का उद्देश्य उत्पादन में बेयस फ़िल्टर का उपयोग करना नहीं है, लेकिन इसमें संदर्भ के लिए ″यूनिग्राम″ सुविधा शामिल है।[6]


प्रक्रिया

विशेष शब्दों के स्पैम ईमेल और वैध ईमेल में होने की विशेष संभावना होती है। उदाहरण के लिए, अधिकांश ईमेल उपयोगकर्ता अक्सर स्पैम ईमेल में वियाग्रा शब्द का सामना करेंगे, लेकिन इसे अन्य ईमेल में शायद ही कभी देखेंगे। फ़िल्टर इन संभावनाओं को पहले से नहीं जानता है, और उसे पहले प्रशिक्षित किया जाना चाहिए ताकि वह उन्हें बना सके। फ़िल्टर को प्रशिक्षित करने के लिए, उपयोगकर्ता को मैन्युअल रूप से इंगित करना होगा कि नया ईमेल स्पैम है या नहीं। प्रत्येक प्रशिक्षण ईमेल में सभी शब्दों के लिए, फ़िल्टर उन संभावनाओं को समायोजित करेगा कि प्रत्येक शब्द अपने डेटाबेस में स्पैम या वैध ईमेल में दिखाई देगा। उदाहरण के लिए, बायेसियन स्पैम फ़िल्टर ने आमतौर पर वियाग्रा और पुनर्वित्त शब्दों के लिए बहुत अधिक स्पैम संभावना सीखी होगी, लेकिन केवल वैध ईमेल में देखे जाने वाले शब्दों, जैसे दोस्तों और परिवार के सदस्यों के नाम, के लिए बहुत कम स्पैम संभावना होगी।

प्रशिक्षण के बाद, संभाव्यता शब्द (संभावना फ़ंक्शन के रूप में भी जाना जाता है) का उपयोग इस संभावना की गणना करने के लिए किया जाता है कि शब्दों के विशेष सेट वाला ईमेल किसी भी श्रेणी से संबंधित है। ईमेल का प्रत्येक शब्द ईमेल की स्पैम संभावना में योगदान देता है, या केवल सबसे दिलचस्प शब्द। इस योगदान को पश्च संभाव्यता कहा जाता है और इसकी गणना बेयस प्रमेय का उपयोग करके की जाती है। फिर, ईमेल की स्पैम संभावना की गणना ईमेल के सभी शब्दों पर की जाती है, और यदि कुल निश्चित सीमा (मान लीजिए 95%) से अधिक है, तो फ़िल्टर ईमेल को स्पैम के रूप में चिह्नित करेगा।

किसी भी अन्य स्पैम फ़िल्टरिंग तकनीक की तरह, स्पैम के रूप में चिह्नित ईमेल को स्वचालित रूप से जंक ईमेल फ़ोल्डर में ले जाया जा सकता है, या सीधे हटाया भी जा सकता है। कुछ सॉफ़्टवेयर संगरोध तंत्र लागू करते हैं जो समय सीमा परिभाषित करते हैं जिसके दौरान उपयोगकर्ता को सॉफ़्टवेयर के निर्णय की समीक्षा करने की अनुमति होती है।

प्रारंभिक प्रशिक्षण को आमतौर पर तब परिष्कृत किया जा सकता है जब सॉफ़्टवेयर से गलत निर्णय (झूठी सकारात्मक या झूठी नकारात्मक) की पहचान की जाती है। यह सॉफ़्टवेयर को स्पैम की लगातार विकसित होने वाली प्रकृति के लिए गतिशील रूप से अनुकूलित करने की अनुमति देता है।

कुछ स्पैम फ़िल्टर बायेसियन स्पैम फ़िल्टरिंग और अन्य मेटाह्यूरिस्टिक (सामग्री के बारे में पूर्व-निर्धारित नियम, संदेश के लिफाफे को देखना, आदि) दोनों के परिणामों को जोड़ते हैं, जिसके परिणामस्वरूप फ़िल्टरिंग सटीकता और भी अधिक हो जाती है, कभी-कभी अनुकूलन की कीमत पर।

गणितीय आधार

बायेसियन ईमेल फ़िल्टर बेयस प्रमेय का उपयोग करते हैं। बेयस प्रमेय का प्रयोग स्पैम के संदर्भ में कई बार किया जाता है:

  • पहली बार, इस संभावना की गणना करने के लिए कि संदेश स्पैम है, यह जानते हुए कि इस संदेश में दिया गया शब्द दिखाई देता है;
  • दूसरी बार, इसके सभी शब्दों (या उनके प्रासंगिक उपसमूह) को ध्यान में रखते हुए, संदेश के स्पैम होने की संभावना की गणना करने के लिए;
  • कभी-कभी तीसरी बार, दुर्लभ शब्दों से निपटने के लिए।

संभावना की गणना करना कि किसी दिए गए शब्द वाला संदेश स्पैम है

मान लीजिए कि संदिग्ध संदेश में प्रतिकृति शब्द शामिल है। अधिकांश लोग जो ई-मेल प्राप्त करने के आदी हैं, वे जानते हैं कि यह संदेश स्पैम होने की संभावना है, अधिक सटीक रूप से प्रसिद्ध ब्रांडों की घड़ियों की नकली प्रतियां बेचने का प्रस्ताव है। हालाँकि, स्पैम का पता लगाने वाला सॉफ़्टवेयर ऐसे तथ्यों को नहीं जानता है; यह केवल संभावनाओं की गणना कर सकता है।

इसे निर्धारित करने के लिए सॉफ़्टवेयर द्वारा उपयोग किया जाने वाला सूत्र बेयस प्रमेय से लिया गया है

कहाँ:

  • यह संभावना है कि कोई संदेश स्पैम है, यह जानते हुए कि उसमें प्रतिकृति शब्द है;
  • यह समग्र संभावना है कि कोई भी संदेश स्पैम है;
  • क्या संभावना है कि प्रतिकृति शब्द स्पैम संदेशों में दिखाई देता है;
  • यह समग्र संभावना है कि कोई भी संदेश स्पैम नहीं है (हैम है);
  • यह संभावना है कि प्रतिकृति शब्द हैम संदेशों में दिखाई देता है।

(पूर्ण प्रदर्शन के लिए, बेयस प्रमेय#विस्तारित रूप देखें।)

किसी शब्द की अनचाहापन

आंकड़े[7] दिखाएँ कि किसी भी संदेश के स्पैम होने की वर्तमान संभावना कम से कम 80% है:

हालाँकि, अधिकांश बायेसियन स्पैम डिटेक्शन सॉफ़्टवेयर यह धारणा बनाते हैं कि किसी भी आने वाले संदेश के हैम के बजाय स्पैम होने का कोई प्राथमिक कारण नहीं है, और दोनों मामलों में 50% की समान संभावनाएँ मानते हैं:

इस परिकल्पना का उपयोग करने वाले फ़िल्टर को पक्षपाती नहीं कहा जाता है, जिसका अर्थ है कि उन्हें आने वाले ईमेल के संबंध में कोई पूर्वाग्रह नहीं है। यह धारणा सामान्य सूत्र को सरल बनाने की अनुमति देती है:

यह कार्यात्मक रूप से यह पूछने के बराबर है कि स्पैम संदेशों में प्रतिकृति शब्द की कितनी प्रतिशत घटनाएँ दिखाई देती हैं?

इस मात्रा को प्रतिकृति शब्द की स्पैमसिटी (या स्पैमनेस) कहा जाता है, और इसकी गणना की जा सकती है। जो नंबर इस सूत्र में उपयोग किए गए संदेशों को सीखने के चरण के दौरान स्पैम के रूप में पहचाने गए संदेशों में प्रतिकृति वाले संदेशों की आवृत्ति का अनुमान लगाया गया है। इसी प्रकार, सीखने के चरण के दौरान हैम के रूप में पहचाने गए संदेशों में प्रतिकृति वाले संदेशों की आवृत्ति का अनुमान लगाया गया है। इन अनुमानों को समझने के लिए, सीखे गए संदेशों का सेट बड़ा और पर्याप्त प्रतिनिधि होना आवश्यक है। यह भी सलाह दी जाती है कि संदेशों का सीखा हुआ सेट स्पैम और हैम के बीच पुनर्विभाजन के बारे में 50% परिकल्पना के अनुरूप हो, यानी कि स्पैम और हैम के डेटासेट ही आकार के हों।[8] बेशक, प्रतिकृति शब्द की उपस्थिति के आधार पर यह निर्धारित करना कि कोई संदेश स्पैम है या हैम, त्रुटि-प्रवण है, यही कारण है कि बायेसियन स्पैम सॉफ़्टवेयर किसी संदेश के स्पैम होने की समग्र संभावना निर्धारित करने के लिए कई शब्दों पर विचार करने और उनकी स्पैमिसिटी को संयोजित करने का प्रयास करता है।

व्यक्तिगत संभावनाओं का संयोजन

अधिकांश बायेसियन स्पैम फ़िल्टरिंग एल्गोरिदम उन फ़ार्मुलों पर आधारित होते हैं जो केवल तभी मान्य होते हैं (संभाव्य दृष्टिकोण से) यदि संदेश में मौजूद शब्द सांख्यिकीय स्वतंत्रता हैं। यह स्थिति आम तौर पर संतुष्ट नहीं होती है (उदाहरण के लिए, अंग्रेजी जैसी प्राकृतिक भाषाओं में विशेषण खोजने की संभावना संज्ञा होने की संभावना से प्रभावित होती है), लेकिन यह उपयोगी आदर्शीकरण है, खासकर जब से व्यक्तिगत शब्दों के बीच सांख्यिकीय सहसंबंध आमतौर पर नहीं होते हैं ज्ञात। इस आधार पर, बेयस प्रमेय से निम्नलिखित सूत्र प्राप्त किया जा सकता है:

कहाँ:

  • क्या संभावना है कि संदिग्ध संदेश स्पैम है;
  • संभावना है पहला शब्द (उदाहरण के लिए प्रतिकृति) प्रकट होता है, यह देखते हुए कि संदेश स्पैम है;
  • संभावना है दूसरा शब्द (उदाहरण के लिए देखता है) प्रकट होता है, यह देखते हुए कि संदेश स्पैम है;
  • वगैरह...

इस फ़ॉर्मूले पर आधारित स्पैम फ़िल्टरिंग सॉफ़्टवेयर को कभी-कभी नैवे बेयस क्लासिफायरियर के रूप में संदर्भित किया जाता है, क्योंकि नैवे सुविधाओं के बीच मजबूत सांख्यिकीय स्वतंत्रता धारणाओं को संदर्भित करता है। परिणाम पी की तुलना आम तौर पर यह तय करने के लिए दी गई सीमा से की जाती है कि संदेश स्पैम है या नहीं। यदि पी सीमा से कम है, तो संदेश को संभावित हैम माना जाता है, अन्यथा इसे संभावित स्पैम माना जाता है।

व्यक्तिगत संभावनाओं के संयोजन के लिए सूत्र की अन्य अभिव्यक्ति

आमतौर पर अंकगणितीय अंडरफ्लो|फ्लोटिंग-पॉइंट अंडरफ्लो के कारण उपरोक्त सूत्र का उपयोग करके पी की सीधे गणना नहीं की जाती है। इसके बजाय, मूल समीकरण को निम्नानुसार पुनः लिखकर लॉग डोमेन में पी की गणना की जा सकती है:

दोनों तरफ से लॉग लेना:

होने देना . इसलिए,

इसलिए संयुक्त संभाव्यता की गणना के लिए वैकल्पिक सूत्र:


दुर्लभ शब्दों से निपटना

यदि कोई शब्द सीखने के चरण के दौरान कभी नहीं मिला है, तो सामान्य सूत्र और स्पैमिसिटी सूत्र दोनों में अंश और हर दोनों शून्य के बराबर हैं। सॉफ़्टवेयर ऐसे शब्दों को हटाने का निर्णय ले सकता है जिनके बारे में कोई जानकारी उपलब्ध नहीं है।

आम तौर पर, सीखने के चरण के दौरान केवल कुछ ही बार सामने आए शब्द समस्या का कारण बनते हैं, क्योंकि उनके द्वारा प्रदान की गई जानकारी पर आँख बंद करके भरोसा करना गलती होगी। सरल उपाय यह है कि ऐसे अविश्वसनीय शब्दों को भी ध्यान में न रखा जाए।

बेयस प्रमेय को फिर से लागू करना, और किसी दिए गए शब्द (प्रतिकृति) वाले ईमेल के स्पैम और हैम के बीच वर्गीकरण को बीटा वितरण के साथ यादृच्छिक चर मानते हुए, कुछ प्रोग्राम सही संभावना का उपयोग करने का निर्णय लेते हैं:

कहाँ:

  • संदेश के स्पैम होने की सही संभावना है, यह जानते हुए कि इसमें दिया गया शब्द है;
  • यह वह ताकत है जो हम आने वाले स्पैम के बारे में पृष्ठभूमि जानकारी को देते हैं;
  • किसी भी आने वाले संदेश के स्पैम होने की संभावना है;
  • सीखने के चरण के दौरान इस शब्द के आने की संख्या है;
  • इस शब्द की स्पैमसिटी है.

(प्रदर्शन:[9])

संयोजन सूत्र में स्पैमिसिटी के स्थान पर इस संशोधित संभाव्यता का उपयोग किया जाता है।

आने वाली ईमेल के बारे में अत्यधिक संदेह से बचने के लिए, इसे फिर से 0.5 के बराबर लिया जा सकता है। 3, s के लिए अच्छा मान है, जिसका अर्थ है कि सीखे गए कॉर्पस में डिफ़ॉल्ट मान की तुलना में स्पैमिसिटी मान पर अधिक विश्वास रखने के लिए उस शब्द के साथ 3 से अधिक संदेश होने चाहिए।.

इस सूत्र को उस स्थिति तक बढ़ाया जा सकता है जहां n शून्य के बराबर है (और जहां स्पैमिसिटी परिभाषित नहीं है), और इस मामले में मूल्यांकन करता है .

अन्य अनुमान

तटस्थ शब्द जैसे , a , some , या is (अंग्रेजी में), या अन्य भाषाओं में उनके समकक्षों को नजरअंदाज किया जा सकता है। इन्हें शब्द बंद करो के नाम से भी जाना जाता है। अधिक आम तौर पर, कुछ बायेसियन फ़िल्टरिंग फ़िल्टर उन सभी शब्दों को अनदेखा कर देते हैं जिनकी स्पैमिसिटी 0.5 के आगे होती है, क्योंकि वे अच्छे निर्णय में बहुत कम योगदान देते हैं। विचार किए गए शब्द वे हैं जिनकी स्पैमसिटी 0.0 (वैध संदेशों के विशिष्ट संकेत) के बगल में है, या 1.0 (स्पैम के विशिष्ट संकेत) के बगल में है। उदाहरण के लिए विधि यह हो सकती है कि जांचे गए संदेश में केवल उन्हीं दस शब्दों को रखा जाए, जिनका निरपेक्ष मान सबसे बड़ा हो |0.5 − pI|

कुछ सॉफ़्टवेयर उत्पाद इस तथ्य को ध्यान में रखते हैं कि जांचे गए संदेश में दिया गया शब्द कई बार दिखाई देता है,[10] अन्य नहीं.

कुछ सॉफ़्टवेयर उत्पाद अलग-अलग प्राकृतिक भाषाओं के शब्दों के बजाय पैटर्न (शब्दों के अनुक्रम) का उपयोग करते हैं।[11] उदाहरण के लिए, चार शब्दों की संदर्भ विंडो के साथ, वे वियाग्रा की स्पैमिसिटी की गणना करते हैं, इसके लिए अच्छा है, वियाग्रा की स्पैमिसिटी की गणना करने के बजाय, है, अच्छा है, और के लिए है। यह विधि संदर्भ के प्रति अधिक संवेदनशीलता देती है और बड़े डेटाबेस की कीमत पर बायेसियन शोर को बेहतर ढंग से समाप्त करती है।

मिश्रित विधियाँ

सरल दृष्टिकोण का उपयोग करने के अलावा अलग-अलग शब्दों के लिए व्यक्तिगत संभावनाओं को संयोजित करने के अन्य तरीके भी हैं। ये विधियां इनपुट डेटा के सांख्यिकीय गुणों पर बनाई गई धारणाओं से भिन्न होती हैं। इन विभिन्न परिकल्पनाओं के परिणामस्वरूप व्यक्तिगत संभावनाओं के संयोजन के लिए मौलिक रूप से भिन्न सूत्र बनते हैं।

उदाहरण के लिए, यह मानते हुए कि व्यक्तिगत संभावनाएँ 2N डिग्री की स्वतंत्रता के साथ ची-वर्ग वितरण का पालन करती हैं, कोई सूत्र का उपयोग कर सकता है:

जहां सी−1 व्युत्क्रम-ची-वर्ग वितरण|ची-वर्ग फलन का व्युत्क्रम है।

व्यक्तिगत संभावनाओं को मार्कोवियन भेदभाव की तकनीकों के साथ भी जोड़ा जा सकता है।

चर्चा

फायदे

मुख्य फायदों में से एक{{citation needed|date=May 2013}बायेसियन स्पैम फ़िल्टरिंग की विशेषता यह है कि इसे प्रति-उपयोगकर्ता के आधार पर प्रशिक्षित किया जा सकता है।

उपयोगकर्ता को प्राप्त होने वाला स्पैम अक्सर ऑनलाइन उपयोगकर्ता की गतिविधियों से संबंधित होता है। उदाहरण के लिए, हो सकता है कि किसी उपयोगकर्ता ने किसी ऑनलाइन न्यूज़लेटर की सदस्यता ली हो जिसे उपयोगकर्ता स्पैम मानता हो। इस ऑनलाइन न्यूज़लेटर में ऐसे शब्द शामिल होने की संभावना है जो सभी न्यूज़लेटर्स में आम हैं, जैसे न्यूज़लेटर का नाम और इसका मूल ईमेल पता। बायेसियन स्पैम फ़िल्टर अंततः उपयोगकर्ता के विशिष्ट पैटर्न के आधार पर उच्च संभावना प्रदान करेगा।

उपयोगकर्ता को प्राप्त वैध ई-मेल अलग-अलग होंगे। उदाहरण के लिए, कॉर्पोरेट वातावरण में, कंपनी का नाम और ग्राहकों या ग्राहकों के नाम का अक्सर उल्लेख किया जाएगा। फ़िल्टर उन नामों वाले ईमेल को कम स्पैम संभावना प्रदान करेगा।

संभाव्यता शब्द प्रत्येक उपयोगकर्ता के लिए अद्वितीय है और जब भी फ़िल्टर किसी ईमेल को गलत तरीके से वर्गीकृत करता है तो सुधारात्मक प्रशिक्षण के साथ समय के साथ विकसित हो सकता है। परिणामस्वरूप, प्रशिक्षण के बाद बायेसियन स्पैम फ़िल्टरिंग सटीकता अक्सर पूर्व-निर्धारित नियमों से बेहतर होती है।

यह झूठी सकारात्मकताओं से बचने में विशेष रूप से अच्छा प्रदर्शन कर सकता है, जहां वैध ईमेल को गलत तरीके से स्पैम के रूप में वर्गीकृत किया गया है। उदाहरण के लिए, यदि ईमेल में नाइजीरिया शब्द शामिल है, जिसका उपयोग अक्सर एडवांस शुल्क धोखाधड़ी स्पैम में किया जाता है, तो पूर्व-परिभाषित नियम फ़िल्टर इसे पूरी तरह से अस्वीकार कर सकता है। बायेसियन फ़िल्टर नाइजीरिया शब्द को संभावित स्पैम शब्द के रूप में चिह्नित करेगा, लेकिन अन्य महत्वपूर्ण शब्दों को ध्यान में रखेगा जो आमतौर पर वैध ई-मेल का संकेत देते हैं। उदाहरण के लिए, जीवनसाथी का नाम दृढ़ता से संकेत दे सकता है कि ई-मेल स्पैम नहीं है, जो नाइजीरिया शब्द के उपयोग पर काबू पा सकता है।

नुकसान

कार्यान्वयन के आधार पर, बायेसियन स्पैम फ़िल्टरिंग बायेसियन विषाक्तता के प्रति संवेदनशील हो सकती है, स्पैमर्स द्वारा बायेसियन फ़िल्टरिंग पर निर्भर स्पैम फ़िल्टर की प्रभावशीलता को कम करने के प्रयास में उपयोग की जाने वाली तकनीक। बायेसियन विषाक्तता का अभ्यास करने वाला स्पैमर बड़ी मात्रा में वैध पाठ (वैध समाचार या साहित्यिक स्रोतों से एकत्रित) के साथ ईमेल भेजेगा। ईमेल स्पैम रणनीति में बेतरतीब अहानिकर शब्दों का सम्मिलन शामिल है जो आम तौर पर स्पैम से जुड़े नहीं होते हैं, जिससे ईमेल का स्पैम स्कोर कम हो जाता है, जिससे बायेसियन स्पैम फ़िल्टर से आगे निकल जाने की संभावना बढ़ जाती है। हालाँकि, (उदाहरण के लिए) पॉल ग्राहम की योजना में केवल सबसे महत्वपूर्ण संभावनाओं का उपयोग किया जाता है, ताकि पाठ को गैर-स्पैम-संबंधित शब्दों के साथ भरने से पता लगाने की संभावना महत्वपूर्ण रूप से प्रभावित न हो।

जो शब्द आम तौर पर स्पैम में बड़ी मात्रा में दिखाई देते हैं, उन्हें स्पैमर द्वारा रूपांतरित भी किया जा सकता है। उदाहरण के लिए, स्पैम संदेश में "वियाग्रा" को "वियाग्रा" या "वी!आग्रा" से बदल दिया जाएगा। संदेश का प्राप्तकर्ता अभी भी बदले हुए शब्दों को पढ़ सकता है, लेकिन इनमें से प्रत्येक शब्द बायेसियन फ़िल्टर से बहुत कम मिलता है, जो इसकी सीखने की प्रक्रिया में बाधा डालता है। सामान्य नियम के रूप में, यह स्पैमिंग तकनीक बहुत अच्छी तरह से काम नहीं करती है, क्योंकि व्युत्पन्न शब्द सामान्य शब्दों की तरह ही फ़िल्टर द्वारा पहचाने जाते हैं।[12] बायेसियन स्पैम फ़िल्टर को हराने के लिए इस्तेमाल की जाने वाली अन्य तकनीक टेक्स्ट को सीधे शामिल या लिंक किए गए चित्रों से बदलना है। संदेश का पूरा पाठ, या उसका कुछ भाग, चित्र से बदल दिया जाता है जहाँ वही पाठ खींचा जाता है। स्पैम फ़िल्टर आमतौर पर इस तस्वीर का विश्लेषण करने में असमर्थ है, जिसमें «वियाग्रा» जैसे संवेदनशील शब्द होंगे। हालाँकि, चूंकि कई मेल क्लाइंट सुरक्षा कारणों से लिंक की गई तस्वीरों के प्रदर्शन को अक्षम कर देते हैं, इसलिए दूर की तस्वीरों के लिंक भेजने वाला स्पैमर कम लक्ष्यों तक पहुंच सकता है। साथ ही, बाइट्स में चित्र का आकार समतुल्य पाठ के आकार से बड़ा होता है, इसलिए स्पैमर को चित्रों सहित सीधे संदेश भेजने के लिए अधिक बैंडविड्थ की आवश्यकता होती है। कुछ फ़िल्टर यह तय करने में अधिक इच्छुक होते हैं कि कोई संदेश स्पैम है यदि उसमें अधिकतर ग्राफ़िकल सामग्री है। Google द्वारा अपने जीमेल लगीं ईमेल सिस्टम में उपयोग किया जाने वाला समाधान प्रत्येक मध्य से बड़े आकार की छवि पर ऑप्टिकल कैरेक्टर मान्यता|ओसीआर (ऑप्टिकल कैरेक्टर रिकग्निशन) निष्पादित करना है, जिसमें अंदर के टेक्स्ट का विश्लेषण किया जाता है।[13][14]


बायेसियन फ़िल्टरिंग के सामान्य अनुप्रयोग

जबकि बायेसियन फ़िल्टरिंग का उपयोग स्पैम ईमेल की पहचान करने के लिए व्यापक रूप से किया जाता है, तकनीक लगभग किसी भी प्रकार के डेटा को वर्गीकृत (या क्लस्टर) कर सकती है। इसका विज्ञान, चिकित्सा और इंजीनियरिंग में उपयोग होता है। उदाहरण सामान्य प्रयोजन वर्गीकरण कार्यक्रम है जिसे AutoClass कहा जाता है, जिसका उपयोग मूल रूप से वर्णक्रमीय विशेषताओं के अनुसार सितारों को वर्गीकृत करने के लिए किया जाता था जो अन्यथा थे नोटिस करने के लिए बहुत सूक्ष्म.

<रेफरी नाम= एंड्राउट्सोपोलोस; स्पैम फ़िल्टर करना सीखना >Androutsopoulos, Ion; Paliouras, Georgios; Karkaletsis, Vangelis; Sakkis, Georgios; Spyropoulos, Constantine D.; Stamatopoulos, Panagiotis (2000). Gallinari, P; Rajman, M; Zaragoza, H (eds.). "स्पैम ई-मेल को फ़िल्टर करना सीखना: एक अनुभवहीन बायेसियन और एक मेमोरी-आधारित दृष्टिकोण की तुलना". 4th European Conference on Principles and Practice of Knowledge Discovery in Databases (PKDD-2000). Lyon, France: Software and Knowledge Engineering Laboratory Institute of Informatics and Telecommunications National Centre for Scientific Research “Demokritos”: 1–13. arXiv:cs/0009009. Bibcode:2000cs........9009A.</ref>

यह भी देखें


संदर्भ

  1. Brunton, Finn (2013). Spam: A Shadow History of the Internet. MIT Press. p. 136. ISBN 9780262018876. Archived from the original on 2019-03-23. Retrieved 2017-09-13.
  2. M. Sahami; S. Dumais; D. Heckerman; E. Horvitz (1998). "जंक ई-मेल को फ़िल्टर करने के लिए एक बायेसियन दृष्टिकोण" (PDF). AAAI'98 Workshop on Learning for Text Categorization. Archived (PDF) from the original on 2007-09-27. Retrieved 2007-08-15.
  3. "जंक मेल नियंत्रण". MozillaZine. November 2009. Archived from the original on 2012-10-23. Retrieved 2010-01-16.
  4. "Installation". Ubuntu manuals. 2010-09-18. Archived from the original on 29 September 2010. Retrieved 2010-09-18. Gary Robinson's f(x) and combining algorithms, as used in SpamAssassin
  5. "Background Reading". SpamBayes project. 2010-09-18. Archived from the original on 6 September 2010. Retrieved 2010-09-18. Sharpen your pencils, this is the mathematical background (such as it is).* The paper that started the ball rolling: Paul Graham's A Plan for Spam.* Gary Robinson has an interesting essay suggesting some improvements to Graham's original approach.* Gary Robinson's Linux Journal article discussed using the chi squared distribution.
  6. "संग्रहीत प्रति". Archived from the original on 2016-10-07. Retrieved 2016-07-09.
  7. Dylan Mors & Dermot Harnett (2009). "State of Spam, a Monthly Report - Report #33" (PDF). Archived (PDF) from the original on 2009-10-07. Retrieved 2009-12-30.
  8. Process Software, Introduction to Bayesian Filtering Archived 2012-02-06 at the Wayback Machine
  9. Gary Robinson (2003). "स्पैम समस्या के लिए एक सांख्यिकीय दृष्टिकोण". Linux Journal. Archived from the original on 2010-10-22. Retrieved 2007-07-19.
  10. Brian Burton (2003). "स्पैमप्रोब - बायेसियन स्पैम फ़िल्टरिंग बदलाव". Archived from the original on 2012-03-01. Retrieved 2009-01-19.
  11. Jonathan A. Zdziarski (2004). "Bayesian Noise Reduction: Contextual Symmetry Logic Utilizing Pattern Consistency Analysis".[permanent dead link]
  12. Paul Graham (2002), A Plan for Spam Archived 2004-04-04 at the Wayback Machine
  13. "जीमेल आपके इनबॉक्स से स्पैम को दूर रखने के लिए Google की नवीन तकनीक का उपयोग करता है". Archived from the original on 2015-09-13. Retrieved 2015-09-05.
  14. Zhu, Z.; Jia, Z; Xiao, H; Zhang, G; Liang, H.; Wang, P. (2014). Li, S; Jin, Q; Jiang, X; Park, J (eds.). "एक संशोधित न्यूनतम जोखिम आधार और स्पैम में इसका अनुप्रयोग". Lecture Notes in Electrical Engineering (in English). Dordrecht: Springer. 269: 2155–2159. doi:10.1007/978-94-007-7618-0_261.
  15. Hristea, Florentina T. (2013). The Naïve Bayes Model for Unsupervised Word Sense Disambiguation (in English). London; Berlin: Springer- Verlag Heidelberg Berlin. p. 70. ISBN 978-3-642-33692-8.
  16. Zheng, J.; Tang, Yongchuan (2005). Mira, Jose; Álvarez, Jose R (eds.). "नाइव बेयस से फ़ज़ी सेट का एक सामान्यीकरण और फ़ज़ी नाइव बेज़ क्लासिफायर का डिज़ाइन". Lecture Notes in Computer Science (in English). Berlin: Springer, Berlin, Heidelberg. 3562: 281. doi:10.1007/11499305_29. ISBN 978-3-540-26319-7. ISSN 0302-9743.