योगात्मक चौरसाई: Difference between revisions

From Vigyanwiki
(Created page with "{{short description|Statistical technique for smoothing categorical data}} {{for|the image processing technique|Laplacian smoothing}} आंकड़ों में, एड...")
 
No edit summary
 
(7 intermediate revisions by 3 users not shown)
Line 1: Line 1:
{{short description|Statistical technique for smoothing categorical data}}
{{short description|Statistical technique for smoothing categorical data}}
{{for|the image processing technique|Laplacian smoothing}}
{{for|छवि प्रसंस्करण तकनीक|लाप्लासियन स्मूथिंग }}


आंकड़ों में, एडिटिव स्मूथिंग, जिसे [[पियरे-साइमन लाप्लास]] स्मूथिंग भी कहा जाता है<ref>C.D. Manning, P. Raghavan and H. Schütze (2008). ''Introduction to Information Retrieval''. Cambridge University Press, p. 260.</ref> या [[जॉर्ज जेम्स लिडस्टोन]] [[ चौरसाई ]], एक तकनीक है जिसका उपयोग श्रेणीबद्ध डेटा को स्मूथ करने के लिए किया जाता है। अवलोकन गणनाओं का एक सेट दिया गया <math display="inline">\textstyle  { \mathbf{x}\ =\ \left\langle x_1,\, x_2,\, \ldots,\, x_d \right\rangle}</math> एक से <math display="inline">\textstyle  {d}</math>-आयामी [[बहुपद वितरण]] के साथ <math display="inline">\textstyle  {N}</math> परीक्षण, गिनती का एक सुचारु संस्करण अनुमानक को देता है:
आंकड़ों में, एडिटिव स्मूथिंग, जिसे लाप्लास स्मूथिंग<ref>C.D. Manning, P. Raghavan and H. Schütze (2008). ''Introduction to Information Retrieval''. Cambridge University Press, p. 260.</ref> या लिडस्टोन स्मूथिंग भी कहा जाता है, ऐसी तकनीक है जिसका उपयोग श्रेणीबद्ध डेटा को सुचारू करने के लिए किया जाता है। <math display="inline">\textstyle  {N}</math> परीक्षणों के साथ <math display="inline">\textstyle  {d}</math>-आयामी बहुपद वितरण से अवलोकन गणनाओं के समुच्चय  <math display="inline">\textstyle  { \mathbf{x}\ =\ \left\langle x_1,\, x_2,\, \ldots,\, x_d \right\rangle}</math> को देखते हुए, गणनाओं का "सुचारू" संस्करण अनुमानक देता है:            


:<math>\hat\theta_i= \frac{x_i + \alpha}{N + \alpha d}  \qquad (i=1,\ldots,d),</math>
:<math>\hat\theta_i= \frac{x_i + \alpha}{N + \alpha d}  \qquad (i=1,\ldots,d),                                                                                                                                                                                                                                      
जहां चिकनी गिनती <math display="inline">\textstyle  { \hat{x}_i=N\hat{\theta}_i}</math> और छद्मगणना α > 0 एक स्मूथिंग [[पैरामीटर]] है। α = 0 कोई स्मूथिंग नहीं है। (यह पैरामीटर इसमें समझाया गया है {{Section link||Pseudocount|nopage=y}}नीचे।) एडिटिव स्मूथिंग एक प्रकार का संकोचन अनुमानक है, क्योंकि परिणामी अनुमान [[अनुभवजन्य संभाव्यता]] ([[सापेक्ष आवृत्ति]]) के बीच होगा। <math display="inline">\textstyle  {x_i/ N}</math>, और असतत समान वितरण <math display="inline">\textstyle {1/d}</math>. लाप्लास के उत्तराधिकार के नियम का हवाला देते हुए, कुछ लेखकों ने तर्क दिया है{{Citation needed|reason=who has argued?|date=December 2013}} वह α 1 होना चाहिए (जिस स्थिति में शब्द 'ऐड-वन स्मूथिंग'<ref>{{Cite book | last1 = Jurafsky | first1 = Daniel | last2 = Martin | first2 = James H. | isbn=978-0-13-187321-6 | title = भाषण और भाषा प्रसंस्करण| edition = 2nd |date=June 2008| publisher = Prentice Hall | pages = 132}}</ref><ref>{{Cite book | last1 = Russell | first1 = Stuart | last2 = Norvig | first2 = Peter | title = Artificial Intelligence: A Modern Approach | edition = 2nd | year = 2010 | publisher = Pearson Education, Inc. | pages = 863}}</ref> भी प्रयोग किया जाता है){{Explain|reason=|date=October 2018}}, हालांकि व्यवहार में आम तौर पर छोटा मान चुना जाता है।
                                                                                                                                                                                                               
                                                                                                                                                                   
                                                                                                                                                                </math>
जहां स्मूथ काउंट <math display="inline">\textstyle  { \hat{x}_i=N\hat{\theta}_i}</math> और "स्यूडोकाउंट" α > 0 स्मूथिंग पैरामीटर है। α = 0 कोई स्मूथिंग नहीं है। (यह पैरामीटर नीचे § स्यूडोकाउंट में समझाया गया है।) एडिटिव स्मूथिंग प्रकार का संकोचन अनुमानक है, क्योंकि परिणामी अनुमान अनुभवजन्य संभाव्यता (सापेक्ष आवृत्ति) <math display="inline">\textstyle  {x_i/ N}</math>, और समान संभावना <math display="inline">\textstyle {1/d}</math> के बीच होगा। लाप्लास के उत्तराधिकार के नियम का आह्वान करते हुए, कुछ लेखकों ने तर्क दिया है कि α 1 होना चाहिए (इस स्थिति में ऐड-वन स्मूथिंग'<ref>{{Cite book | last1 = Jurafsky | first1 = Daniel | last2 = Martin | first2 = James H. | isbn=978-0-13-187321-6 | title = भाषण और भाषा प्रसंस्करण| edition = 2nd |date=June 2008| publisher = Prentice Hall | pages = 132}}</ref><ref>{{Cite book | last1 = Russell | first1 = Stuart | last2 = Norvig | first2 = Peter | title = Artificial Intelligence: A Modern Approach | edition = 2nd | year = 2010 | publisher = Pearson Education, Inc. | pages = 863}}</ref> शब्द का भी उपयोग किया जाता है), चूँकि वास्तव में समान्यत: छोटा मान चुना जाता है .


[[बायेसियन अनुमान]] के दृष्टिकोण से, यह [[पूर्व वितरण]] के रूप में पैरामीटर α के साथ एक सममित [[डिरिचलेट वितरण]] का उपयोग करते हुए, [[पश्च वितरण]] के [[अपेक्षित मूल्य]] से मेल खाता है। विशेष मामले में जहां श्रेणियों की संख्या 2 है, यह [[द्विपद वितरण]] के मापदंडों के लिए संयुग्म पूर्व के रूप में [[बीटा वितरण]] का उपयोग करने के बराबर है।
[[बायेसियन अनुमान]] के दृष्टिकोण से, यह [[पूर्व वितरण]] के रूप में पैरामीटर α के साथ सममित [[डिरिचलेट वितरण]] का उपयोग करते हुए, [[पश्च वितरण]] के [[अपेक्षित मूल्य]] से मेल खाता है। विशेष स्थिति में जहां श्रेणियों की संख्या 2 है, यह [[द्विपद वितरण]] के मापदंडों के लिए संयुग्म पूर्व के रूप में [[बीटा वितरण]] का उपयोग करने के समान है।


==इतिहास==
==इतिहास                                                                                                                           ==
लाप्लास इस स्मूथिंग तकनीक के साथ तब आए जब उन्होंने इस संभावना का अनुमान लगाने की कोशिश की कि कल सूरज उगेगा। उनका तर्क यह था कि उगते सूरज के साथ दिनों का एक बड़ा नमूना देने पर भी, हम अभी भी पूरी तरह से आश्वस्त नहीं हो सकते हैं कि सूरज कल भी उगेगा (जिसे सूर्योदय समस्या के रूप में जाना जाता है)।<ref name=lec5>[https://www.youtube.com/watch?v=qRJ3GKMOFrE#t=4124 Lecture 5 | Machine Learning (Stanford)] at 1h10m into the lecture</ref>
लाप्लास इस स्मूथिंग तकनीक के साथ तब आए जब उन्होंने इस संभावना का अनुमान लगाने का  प्रयाश करते है की कि कल सूरज उगेगा। उनका तर्क यह था कि उगते सूरज के साथ दिनों का बड़ा नमूना देने पर भी हम अभी भी पूरी तरह से आश्वस्त नहीं हो सकते हैं कि सूरज कल भी उगेगा (जिसे सूर्योदय समस्या के रूप में जाना जाता है)।<ref name=lec5>[https://www.youtube.com/watch?v=qRJ3GKMOFrE#t=4124 Lecture 5 | Machine Learning (Stanford)] at 1h10m into the lecture</ref>
 
==स्यूडोकाउंट                                                                                                                                                                        ==
 
छद्म गणना राशि है (समान्यत: पूर्णांक नहीं, इसके नाम के अतिरक्त ) उन डेटा के मॉडल में अपेक्षित संभावना को बदलने के लिए देखे गए स्थितियों की संख्या में जोड़ा जाता है, जब शून्य ज्ञात नहीं होता है। इसका यह नाम इसलिए रखा गया है क्योंकि समान्य रूप से कहें तो, मूल्य <math display="inline">\textstyle  {\alpha}</math> की छद्म गणना, प्रत्येक श्रेणी के समान ही, जिसमें <math display="inline">\textstyle  { \alpha }</math> की अतिरिक्त गिनती होती है, पश्च वितरण में वजन करती है। यदि प्रत्येक आइटम <math display="inline">\textstyle  { i }</math> की आवृत्ति <math>\textstyle  {x_i}</math> नमूनों में से <math display="inline">\textstyle  {N}</math> है, तो घटना की अनुभवजन्य संभावना <math display="inline">\textstyle  { i }</math> है
==छद्मगणना==
एक छद्म गणना एक राशि है (आम तौर पर एक पूर्णांक नहीं, इसके नाम के बावजूद) उन डेटा के [[मॉडल (सार)]] में अपेक्षित [[संभावना]] को बदलने के लिए देखे गए मामलों की संख्या में जोड़ा जाता है, जब शून्य ज्ञात नहीं होता है। इसका यह नाम इसलिए रखा गया है, क्योंकि मोटे तौर पर कहें तो यह मूल्य की एक छद्म गणना है <math display="inline">\textstyle  {\alpha}</math> प्रत्येक श्रेणी की अतिरिक्त गिनती के समान ही पश्च वितरण में वजन होता है <math display="inline">\textstyle  { \alpha }</math>. यदि प्रत्येक आइटम की आवृत्ति <math display="inline">\textstyle  { i }</math> है <math>\textstyle  {x_i}</math> से बाहर <math display="inline">\textstyle  {N}</math> नमूने, घटना की अनुभवजन्य संभावना <math display="inline">\textstyle  { i }</math> है


:<math>p_{i,\ \mathrm{empirical}} = \frac{x_i}{N}</math>
:<math>p_{i,\ \mathrm{empirical}} = \frac{x_i}{N}</math>
लेकिन जब योगात्मक रूप से चिकना किया जाता है तो पिछली संभावना होती है
किंतु जब योगात्मक रूप से चिकना किया जाता है तो पिछली संभावना होती है


:<math>p_{i,\ \alpha\text{-smoothed}} = \frac{x_i + \alpha}{N + \alpha d},</math>
:<math>p_{i,\ \alpha\text{-smoothed}} = \frac{x_i + \alpha}{N + \alpha d},</math>
मानो प्रत्येक गिनती को बढ़ाना हो <math>\textstyle  {x_i}</math> द्वारा <math>\textstyle  {\alpha}</math> संभवतः।
मानो प्रत्येक गिनती को <math>\textstyle  {x_i}</math> को प्राथमिकता से <math>\textstyle  {\alpha}</math> तक बढ़ाना हो।


पूर्व ज्ञान के आधार पर, जो कभी-कभी एक व्यक्तिपरक मूल्य होता है, एक छद्मगणना में कोई भी गैर-नकारात्मक परिमित मूल्य हो सकता है। यदि परिभाषा के अनुसार यह असंभव है तो यह केवल शून्य हो सकता है (या संभावना को नजरअंदाज कर दिया जा सकता है), जैसे कि पाई के दशमलव अंक के एक अक्षर होने की संभावना, या एक भौतिक संभावना जिसे अस्वीकार कर दिया जाएगा और इसलिए गिना नहीं जाएगा, जैसे कि कंप्यूटर द्वारा किसी अक्षर को प्रिंट करना जब पीआई के लिए एक वैध कार्यक्रम चलाया जाता है, या बाहर रखा जाता है और कोई रुचि नहीं होने के कारण गिना नहीं जाता है, जैसे कि केवल शून्य और एक में रुचि हो। आम तौर पर, ऐसी भी संभावना है कि कोई भी मूल्य एक सीमित समय में गणना योग्य या देखने योग्य नहीं हो सकता है (रोकने की समस्या देखें)। लेकिन कम से कम एक संभावना में गैर-शून्य छद्मगणना होनी चाहिए, अन्यथा पहले अवलोकन से पहले किसी भी भविष्यवाणी की गणना नहीं की जा सकती। छद्मगणना के सापेक्ष मूल्य उनकी संभावनाओं की सापेक्ष पूर्व अपेक्षित संभावनाओं का प्रतिनिधित्व करते हैं। छद्मगणना का योग, जो बहुत बड़ा हो सकता है, अपेक्षित संभावना का निर्धारण करते समय सभी वास्तविक टिप्पणियों (प्रत्येक के लिए एक) की तुलना में पूर्व ज्ञान के अनुमानित वजन का प्रतिनिधित्व करता है।
पूर्व ज्ञान के आधार पर, जो कभी-कभी व्यक्तिपरक मूल्य होता है, छद्मगणना में कोई भी गैर-ऋणात्मक  परिमित मूल्य हो सकता है। यदि परिभाषा के अनुसार यह असंभव है तो यह केवल शून्य हो सकता है (या संभावना को अनदेखा कर दिया जा सकता है) जैसे कि पाई के दशमलव अंक के अक्षर होने की संभावना या भौतिक संभावना जिसे अस्वीकार कर दिया जाएगा और इसलिए गिना नहीं जाएगा जैसे कि कंप्यूटर द्वारा किसी अक्षर को प्रिंट करना जब पीआई के लिए वैध कार्यक्रम चलाया जाता है, या बाहर रखा जाता है और कोई रुचि नहीं होने के कारण गिना नहीं जाता है, जैसे कि केवल शून्य और में रुचि हो। समान्यत: ऐसी भी संभावना है कि कोई भी मूल्य सीमित समय में गणना योग्य या देखने योग्य नहीं हो सकता है (रोकने की समस्या देखें)। किंतु कम से कम संभावना में गैर-शून्य छद्मगणना होनी चाहिए, अन्यथा पहले अवलोकन से पहले किसी भी भविष्यवाणी की गणना नहीं की जा सकती है। छद्मगणना के सापेक्ष मूल्य उनकी संभावनाओं की सापेक्ष पूर्व अपेक्षित संभावनाओं का प्रतिनिधित्व करते हैं। छद्मगणना का योग है जो बहुत बड़ा हो सकता है, अपेक्षित संभावना का निर्धारण करते समय सभी वास्तविक टिप्पणियों (प्रत्येक के लिए ) की तुलना में पूर्व ज्ञान के अनुमानित वजन का प्रतिनिधित्व करता है।


किसी भी देखे गए डेटा सेट या नमूने (सांख्यिकी) में, विशेष रूप से कम-संभावना वाली [[घटना (संभावना सिद्धांत)]] और छोटे डेटा सेट के साथ, एक संभावित घटना के घटित न होने की संभावना होती है। इसलिए इसकी प्रेक्षित आवृत्ति शून्य है, जो स्पष्ट रूप से शून्य की संभावना दर्शाती है। यह अतिसरलीकरण गलत और अक्सर अनुपयोगी है, विशेष रूप से [[कृत्रिम तंत्रिका नेटवर्क]] और छिपे [[छिपा हुआ मार्कोव मॉडल]] जैसी संभाव्यता-आधारित मशीन सीखने की तकनीकों में। दुर्लभ (लेकिन असंभव नहीं) घटनाओं की संभावना को कृत्रिम रूप से समायोजित करके ताकि वे संभावनाएं बिल्कुल शून्य न हों, [[पीपीएम संपीड़न एल्गोरिदम]]|शून्य-आवृत्ति समस्याओं से बचा जाता है। क्रॉमवेल का नियम भी देखें।
किसी भी देखे गए डेटा समुच्चय  या नमूने (सांख्यिकी) में, विशेष रूप से कम-संभावना वाली [[घटना (संभावना सिद्धांत)]] और छोटे डेटा समुच्चय  के साथ, संभावित घटना के घटित न होने की संभावना होती है। इसलिए इसकी प्रेक्षित आवृत्ति शून्य है, जो स्पष्ट रूप से शून्य की संभावना दर्शाती है। यह अतिसरलीकरण गलत और अधिकांशतः अनुपयोगी है,विशेष रूप से कृत्रिम तंत्रिका नेटवर्क और छिपे हुए मार्कोव मॉडल जैसी संभाव्यता-आधारित मशीन सीखने की तकनीकों में यह दुर्लभ (किंतु असंभव नहीं) घटनाओं की संभावना को कृत्रिम रूप से समायोजित करके जिससे वे संभावनाएं बिल्कुल शून्य न हों जिससे [[पीपीएम संपीड़न एल्गोरिदम]] या शून्य-आवृत्ति समस्याओं से बचा जाता है। क्रॉमवेल का नियम भी देखें।


सबसे सरल तरीका शून्य-गणना संभावनाओं सहित प्रत्येक देखी गई घटनाओं की संख्या में एक जोड़ना है। इसे कभी-कभी लाप्लास का [[उत्तराधिकार का नियम]] भी कहा जाता है। यह दृष्टिकोण प्रत्येक संभावित घटना के लिए संभावनाओं पर एक समान पूर्व वितरण मानने के बराबर है (सिम्पलेक्स को फैलाते हुए जहां प्रत्येक संभावना 0 और 1 के बीच है, और उन सभी का योग 1 है)।
सबसे सरल विधि शून्य-गणना संभावनाओं सहित प्रत्येक देखी गई घटनाओं की संख्या में जोड़ना है। इसे कभी-कभी लाप्लास का [[उत्तराधिकार का नियम]] भी कहा जाता है। यह दृष्टिकोण प्रत्येक संभावित घटना के लिए संभावनाओं पर समान पूर्व वितरण मानने के समान है (सिम्पलेक्स को फैलाते हुए जहां प्रत्येक संभावना 0 और 1 के बीच है, और उन सभी का योग 1 है)।


पक्षपातपूर्ण संभाव्यता दृष्टिकोण के साथ जेफ़रीज़ पूर्व#एन-पक्षीय पासे का उपयोग करते हुए, प्रत्येक संभावित परिणाम में एक आधे की छद्म गणना जोड़ी जानी चाहिए।
जेफ़्रीज़ पूर्व दृष्टिकोण का उपयोग करते हुए, प्रत्येक संभावित परिणाम में आधे की छद्म गणना जोड़ी जानी चाहिए।


स्यूडोकाउंट को केवल तभी सेट किया जाना चाहिए जब कोई पूर्व ज्ञान न हो - [[उदासीनता का सिद्धांत]] देखें। हालाँकि, उचित पूर्व ज्ञान को देखते हुए, राशि को इस अपेक्षा के अनुपात में समायोजित किया जाना चाहिए कि पूर्व संभावनाओं को सही माना जाना चाहिए, इसके विपरीत साक्ष्य के बावजूद - उत्तराधिकार का नियम#आगे का विश्लेषण देखें। उच्च मूल्य उचित हैं क्योंकि वास्तविक मूल्यों का पूर्व ज्ञान है (एक टकसाल स्थिति सिक्के के लिए, मान लीजिए); कम मूल्य क्योंकि पूर्व ज्ञान है कि संभावित पूर्वाग्रह है, लेकिन अज्ञात डिग्री (एक मुड़े हुए सिक्के के लिए, मान लीजिए)।
स्यूडोकाउंट को केवल तभी समुच्चय  किया जाना चाहिए जब कोई पूर्व ज्ञान न हो - [[उदासीनता का सिद्धांत]] देखें। चूँकि, उचित पूर्व ज्ञान को देखते हुए, राशि को इस अपेक्षा के अनुपात में समायोजित किया जाना चाहिए कि पूर्व संभावनाओं को सही माना जाना चाहिए, इसके विपरीत साक्ष्य के अतिरक्त - उत्तराधिकार का नियम या उसके आगे का विश्लेषण देखें। उच्च मूल्य उचित हैं क्योंकि वास्तविक मूल्यों का पूर्व ज्ञान है ( टकसाल स्थिति सिक्के के लिए, मान लीजिए); कम मूल्य क्योंकि पूर्व ज्ञान है कि संभावित पूर्वाग्रह है, किंतु अज्ञात डिग्री ( मुड़े हुए सिक्के के लिए, मान लीजिए)।


एक अधिक जटिल दृष्टिकोण अन्य कारकों से घटनाओं के घनत्व का अनुमान लगाना और तदनुसार समायोजित करना है।
अधिक सम्मिश्र  दृष्टिकोण अन्य कारकों से घटनाओं के घनत्व का अनुमान लगाना और इसलिए समायोजित करना है।


===उदाहरण===
===उदाहरण                                                                                         ===
छद्मगणना को प्रेरित करने का एक तरीका, विशेष रूप से द्विपद डेटा के लिए, एक [[अंतराल अनुमान]] के मध्यबिंदु के लिए एक सूत्र के माध्यम से है, विशेष रूप से एक [[द्विपद अनुपात विश्वास अंतराल]]। सबसे प्रसिद्ध [[एडविन बिडवेल विल्सन]] के कारण है {{harvtxt|Wilson|1927}}: [[विल्सन स्कोर अंतराल]] के मध्यबिंदु के अनुरूप {{tmath|z}} दोनों तरफ मानक विचलन है:
छद्मगणना को प्रेरित करने का विधि विशेष रूप से द्विपद डेटा के लिए अंतराल अनुमान के मध्यबिंदु के लिए सूत्र के माध्यम से है, विशेष रूप से द्विपद अनुपात विश्वास अंतराल सबसे प्रसिद्ध {{harvtxt|विल्सन |(1927)}} में एडविन बिडवेल विल्सन के कारण है: दोनों तरफ {{tmath|z}} मानक विचलन के अनुरूप विल्सन स्कोर अंतराल का मध्यबिंदु है:
:<math>\frac{n_S + z}{n + 2z}.</math>
:<math>\frac{n_S + z}{n + 2z}.</math>
ले रहा <math>\textstyle z = 2</math> 95% विश्वास अंतराल का अनुमान लगाने के लिए मानक विचलन ({{tmath|z \approx 1.96}}) प्रत्येक परिणाम के लिए 2 की छद्म गणना उत्पन्न करता है, इसलिए कुल मिलाकर 4, बोलचाल की भाषा में प्लस चार नियम के रूप में जाना जाता है:
लगभग 95% विश्वास अंतराल <math>\textstyle z = 2</math> के लिए {{{tmath|z \approx 1.96}}} मानक विचलन लेने से प्रत्येक परिणाम के लिए 2 की छद्म गणना प्राप्त होती है, इसलिए कुल मिलाकर 4, जिसे बोलचाल की भाषा में "प्लस फोर नियम" के रूप में जाना जाता है:
:<math>\frac{n_S + 2}{n + 4}.</math>
:<math>\frac{n_S + 2}{n + 4}.</math>
यह एग्रेस्टी-कूल अंतराल का मध्यबिंदु भी है, {{harv|Agresti|Coull|1998}}.
यह एग्रेस्टी-कूल अंतराल का मध्यबिंदु {{harv|अग्रेस्टी|कौल|1998}} भी है, .


== ज्ञात घटना दर के मामले में सामान्यीकृत ==
== ज्ञात घटना दर के स्थिति में सामान्यीकृत                                               ==
अक्सर आप ज्ञात मापदंडों (घटना दर) के साथ एक नियंत्रण आबादी के खिलाफ एक अज्ञात परीक्षण आबादी के पूर्वाग्रह का परीक्षण कर रहे हैं <math display="inline">\textstyle  { \mathbf{\mu}\ =\  
अधिकांशतः आप ज्ञात मापदंडों (घटना दर) <math display="inline">\textstyle  { \mathbf{\mu}\ =\  
\left\langle  
\left\langle  
\mu_1,\, \mu_2,\, \ldots,\, \mu_d \right\rangle}</math>. इस मामले में एक समान संभावना <math display="inline">\textstyle  {\frac{1}{d}}</math> नियंत्रण जनसंख्या की ज्ञात घटना दर द्वारा प्रतिस्थापित किया जाना चाहिए <math>\textstyle  {\mu_i}</math> सुचारू अनुमानक की गणना करने के लिए:
\mu_1,\, \mu_2,\, \ldots,\, \mu_d \right\rangle}</math> के साथ नियंत्रण संख्या के विरुद्ध अज्ञात परीक्षण संख्या के पूर्वाग्रह का परीक्षण कर रहे हैं। इस स्थिति में सुचारू अनुमानक की गणना करने के लिए समान संभाव्यता <math display="inline">\textstyle  {\frac{1}{d}}</math> को नियंत्रण जनसंख्या की ज्ञात घटना दर <math>\textstyle  {\mu_i}</math> से प्रतिस्थापित किया जाना चाहिए:


:<math>\hat\theta_i= \frac{x_i + \mu_i \alpha d }{N + \alpha d }  \qquad (i=1,\ldots,d),</math>
:<math>\hat\theta_i= \frac{x_i + \mu_i \alpha d }{N + \alpha d }  \qquad (i=1,\ldots,d),</math>
एक सुसंगतता जांच के रूप में, यदि अनुभवजन्य अनुमानक घटना दर के बराबर होता है, यानी। <math>\textstyle  {\mu_i} = \frac{x_i}{N}</math>, सुचारू अनुमानक स्वतंत्र है<math display="inline">\textstyle  {\alpha}</math>और घटना दर के बराबर भी है।
सुसंगतता जांच के रूप में, यदि अनुभवजन्य अनुमानक घटना दर के समान होता है, अर्थात <math>\textstyle  {\mu_i} = \frac{x_i}{N}</math>, तो सुचारू अनुमानक <math display="inline">\textstyle  {\alpha}</math> से स्वतंत्र होता है और घटना दर के समान भी होता है।


== अनुप्रयोग ==
== अनुप्रयोग ==


=== वर्गीकरण ===
=== वर्गीकरण ===
एडिटिव स्मूथिंग आमतौर पर अनुभवहीन बेयस क्लासिफायर का एक घटक है।
एडिटिव स्मूथिंग समान्यत: अनुभवहीन बेयस क्लासिफायर का घटक है।


===सांख्यिकीय भाषा मॉडलिंग ===
===सांख्यिकीय भाषा मॉडलिंग ===
प्राकृतिक भाषा प्रसंस्करण और सूचना पुनर्प्राप्ति के शब्दों के एक बैग मॉडल में, डेटा में दस्तावेज़ में प्रत्येक शब्द की घटनाओं की संख्या शामिल होती है। एडिटिव स्मूथिंग उन शब्दों के लिए गैर-शून्य संभावनाओं को निर्दिष्ट करने की अनुमति देता है जो नमूने में नहीं होते हैं। हाल के अध्ययनों से साबित हुआ है कि भाषा-मॉडल-आधारित प्रासंगिकता फीडबैक#ब्लाइंड फीडबैक|छद्म-प्रासंगिक फीडबैक और [[अनुशंसा प्रणाली]] जैसे कई पुनर्प्राप्ति कार्यों में एडिटिव स्मूथिंग अन्य संभाव्यता स्मूथिंग विधियों की तुलना में अधिक प्रभावी है।<ref>{{cite journal|last1=Hazimeh|first1=Hussein|last2=Zhai|first2=ChengXiang|title=छद्म प्रासंगिकता प्रतिक्रिया के लिए भाषा मॉडल में स्मूथिंग विधियों का स्वयंसिद्ध विश्लेषण|journal=ICTIR '15 Proceedings of the 2015 International Conference on the Theory of Information Retrieval|url=http://dl.acm.org/citation.cfm?id=2809471}}</ref><ref>{{cite journal|last1=Valcarce|first1=Daniel|last2=Parapar|first2=Javier|last3=Barreiro|first3=Álvaro|title=अनुशंसा प्रणाली की प्रासंगिकता-आधारित भाषा मॉडलिंग के लिए एडिटिव स्मूथिंग|journal=CERI '16 Proceedings of the 4th Spanish Conference on Information Retrieval|url=http://dl.acm.org/citation.cfm?id=2934737}}</ref>


 
प्राकृतिक भाषा प्रसंस्करण और सूचना पुनर्प्राप्ति के शब्दों के बैग मॉडल में, डेटा में दस्तावेज़ में प्रत्येक शब्द की घटनाओं की संख्या सम्मिलित होती है। एडिटिव स्मूथिंग उन शब्दों के लिए गैर-शून्य संभावनाओं को निर्दिष्ट करने की अनुमति देता है जो नमूने में नहीं होते हैं। वर्तमान के अध्ययनों से सिद्ध हुआ है कि भाषा-मॉडल-आधारित छद्म-प्रासंगिक प्रतिक्रिया और अनुशंसा प्रणाली जैसे कई पुनर्प्राप्ति कार्यों में एडिटिव स्मूथिंग अन्य संभाव्यता स्मूथिंग विधियों की तुलना में अधिक प्रभावी है। ।<ref>{{cite journal|last1=Hazimeh|first1=Hussein|last2=Zhai|first2=ChengXiang|title=छद्म प्रासंगिकता प्रतिक्रिया के लिए भाषा मॉडल में स्मूथिंग विधियों का स्वयंसिद्ध विश्लेषण|journal=ICTIR '15 Proceedings of the 2015 International Conference on the Theory of Information Retrieval|url=http://dl.acm.org/citation.cfm?id=2809471}}</ref><ref>{{cite journal|last1=Valcarce|first1=Daniel|last2=Parapar|first2=Javier|last3=Barreiro|first3=Álvaro|title=अनुशंसा प्रणाली की प्रासंगिकता-आधारित भाषा मॉडलिंग के लिए एडिटिव स्मूथिंग|journal=CERI '16 Proceedings of the 4th Spanish Conference on Information Retrieval|url=http://dl.acm.org/citation.cfm?id=2934737}}</ref>
== यह भी देखें ==
== यह भी देखें         ==
* [[बायेसियन औसत]]
* [[बायेसियन औसत]]
* [[आंशिक मिलान द्वारा भविष्यवाणी]]
* [[आंशिक मिलान द्वारा भविष्यवाणी]]
Line 101: Line 101:
*[https://web.archive.org/web/20040909153902/http://www.soe.ucsc.edu/research/compbio/html_format_papers/tr-95-11/node8.html Pseudocounts]
*[https://web.archive.org/web/20040909153902/http://www.soe.ucsc.edu/research/compbio/html_format_papers/tr-95-11/node8.html Pseudocounts]
**[https://archive.today/20130419033054/http://www.soe.ucsc.edu/research/compbio/html_format_papers/tr-95-11/node30.html Bayesian interpretation of pseudocount regularizers]
**[https://archive.today/20130419033054/http://www.soe.ucsc.edu/research/compbio/html_format_papers/tr-95-11/node30.html Bayesian interpretation of pseudocount regularizers]
[[Category: सांख्यिकीय प्राकृतिक भाषा प्रसंस्करण]] [[Category: सुस्पष्ट डेटा]] [[Category: सिद्धांत संभावना]]


[[Category: Machine Translated Page]]
[[Category:Articles with hatnote templates targeting a nonexistent page]]
[[Category:Created On 07/07/2023]]
[[Category:Created On 07/07/2023]]
[[Category:Lua-based templates]]
[[Category:Machine Translated Page]]
[[Category:Pages with script errors]]
[[Category:Short description with empty Wikidata description]]
[[Category:Templates Vigyan Ready]]
[[Category:Templates that add a tracking category]]
[[Category:Templates that generate short descriptions]]
[[Category:Templates using TemplateData]]
[[Category:सांख्यिकीय प्राकृतिक भाषा प्रसंस्करण]]
[[Category:सिद्धांत संभावना]]
[[Category:सुस्पष्ट डेटा]]

Latest revision as of 13:45, 3 August 2023

आंकड़ों में, एडिटिव स्मूथिंग, जिसे लाप्लास स्मूथिंग[1] या लिडस्टोन स्मूथिंग भी कहा जाता है, ऐसी तकनीक है जिसका उपयोग श्रेणीबद्ध डेटा को सुचारू करने के लिए किया जाता है। परीक्षणों के साथ -आयामी बहुपद वितरण से अवलोकन गणनाओं के समुच्चय को देखते हुए, गणनाओं का "सुचारू" संस्करण अनुमानक देता है:

जहां स्मूथ काउंट और "स्यूडोकाउंट" α > 0 स्मूथिंग पैरामीटर है। α = 0 कोई स्मूथिंग नहीं है। (यह पैरामीटर नीचे § स्यूडोकाउंट में समझाया गया है।) एडिटिव स्मूथिंग प्रकार का संकोचन अनुमानक है, क्योंकि परिणामी अनुमान अनुभवजन्य संभाव्यता (सापेक्ष आवृत्ति) , और समान संभावना के बीच होगा। लाप्लास के उत्तराधिकार के नियम का आह्वान करते हुए, कुछ लेखकों ने तर्क दिया है कि α 1 होना चाहिए (इस स्थिति में ऐड-वन स्मूथिंग'[2][3] शब्द का भी उपयोग किया जाता है), चूँकि वास्तव में समान्यत: छोटा मान चुना जाता है .

बायेसियन अनुमान के दृष्टिकोण से, यह पूर्व वितरण के रूप में पैरामीटर α के साथ सममित डिरिचलेट वितरण का उपयोग करते हुए, पश्च वितरण के अपेक्षित मूल्य से मेल खाता है। विशेष स्थिति में जहां श्रेणियों की संख्या 2 है, यह द्विपद वितरण के मापदंडों के लिए संयुग्म पूर्व के रूप में बीटा वितरण का उपयोग करने के समान है।

इतिहास

लाप्लास इस स्मूथिंग तकनीक के साथ तब आए जब उन्होंने इस संभावना का अनुमान लगाने का प्रयाश करते है की कि कल सूरज उगेगा। उनका तर्क यह था कि उगते सूरज के साथ दिनों का बड़ा नमूना देने पर भी हम अभी भी पूरी तरह से आश्वस्त नहीं हो सकते हैं कि सूरज कल भी उगेगा (जिसे सूर्योदय समस्या के रूप में जाना जाता है)।[4]

स्यूडोकाउंट

छद्म गणना राशि है (समान्यत: पूर्णांक नहीं, इसके नाम के अतिरक्त ) उन डेटा के मॉडल में अपेक्षित संभावना को बदलने के लिए देखे गए स्थितियों की संख्या में जोड़ा जाता है, जब शून्य ज्ञात नहीं होता है। इसका यह नाम इसलिए रखा गया है क्योंकि समान्य रूप से कहें तो, मूल्य की छद्म गणना, प्रत्येक श्रेणी के समान ही, जिसमें की अतिरिक्त गिनती होती है, पश्च वितरण में वजन करती है। यदि प्रत्येक आइटम की आवृत्ति नमूनों में से है, तो घटना की अनुभवजन्य संभावना है

किंतु जब योगात्मक रूप से चिकना किया जाता है तो पिछली संभावना होती है

मानो प्रत्येक गिनती को को प्राथमिकता से तक बढ़ाना हो।

पूर्व ज्ञान के आधार पर, जो कभी-कभी व्यक्तिपरक मूल्य होता है, छद्मगणना में कोई भी गैर-ऋणात्मक परिमित मूल्य हो सकता है। यदि परिभाषा के अनुसार यह असंभव है तो यह केवल शून्य हो सकता है (या संभावना को अनदेखा कर दिया जा सकता है) जैसे कि पाई के दशमलव अंक के अक्षर होने की संभावना या भौतिक संभावना जिसे अस्वीकार कर दिया जाएगा और इसलिए गिना नहीं जाएगा जैसे कि कंप्यूटर द्वारा किसी अक्षर को प्रिंट करना जब पीआई के लिए वैध कार्यक्रम चलाया जाता है, या बाहर रखा जाता है और कोई रुचि नहीं होने के कारण गिना नहीं जाता है, जैसे कि केवल शून्य और में रुचि हो। समान्यत: ऐसी भी संभावना है कि कोई भी मूल्य सीमित समय में गणना योग्य या देखने योग्य नहीं हो सकता है (रोकने की समस्या देखें)। किंतु कम से कम संभावना में गैर-शून्य छद्मगणना होनी चाहिए, अन्यथा पहले अवलोकन से पहले किसी भी भविष्यवाणी की गणना नहीं की जा सकती है। छद्मगणना के सापेक्ष मूल्य उनकी संभावनाओं की सापेक्ष पूर्व अपेक्षित संभावनाओं का प्रतिनिधित्व करते हैं। छद्मगणना का योग है जो बहुत बड़ा हो सकता है, अपेक्षित संभावना का निर्धारण करते समय सभी वास्तविक टिप्पणियों (प्रत्येक के लिए ) की तुलना में पूर्व ज्ञान के अनुमानित वजन का प्रतिनिधित्व करता है।

किसी भी देखे गए डेटा समुच्चय या नमूने (सांख्यिकी) में, विशेष रूप से कम-संभावना वाली घटना (संभावना सिद्धांत) और छोटे डेटा समुच्चय के साथ, संभावित घटना के घटित न होने की संभावना होती है। इसलिए इसकी प्रेक्षित आवृत्ति शून्य है, जो स्पष्ट रूप से शून्य की संभावना दर्शाती है। यह अतिसरलीकरण गलत और अधिकांशतः अनुपयोगी है,विशेष रूप से कृत्रिम तंत्रिका नेटवर्क और छिपे हुए मार्कोव मॉडल जैसी संभाव्यता-आधारित मशीन सीखने की तकनीकों में यह दुर्लभ (किंतु असंभव नहीं) घटनाओं की संभावना को कृत्रिम रूप से समायोजित करके जिससे वे संभावनाएं बिल्कुल शून्य न हों जिससे पीपीएम संपीड़न एल्गोरिदम या शून्य-आवृत्ति समस्याओं से बचा जाता है। क्रॉमवेल का नियम भी देखें।

सबसे सरल विधि शून्य-गणना संभावनाओं सहित प्रत्येक देखी गई घटनाओं की संख्या में जोड़ना है। इसे कभी-कभी लाप्लास का उत्तराधिकार का नियम भी कहा जाता है। यह दृष्टिकोण प्रत्येक संभावित घटना के लिए संभावनाओं पर समान पूर्व वितरण मानने के समान है (सिम्पलेक्स को फैलाते हुए जहां प्रत्येक संभावना 0 और 1 के बीच है, और उन सभी का योग 1 है)।

जेफ़्रीज़ पूर्व दृष्टिकोण का उपयोग करते हुए, प्रत्येक संभावित परिणाम में आधे की छद्म गणना जोड़ी जानी चाहिए।

स्यूडोकाउंट को केवल तभी समुच्चय किया जाना चाहिए जब कोई पूर्व ज्ञान न हो - उदासीनता का सिद्धांत देखें। चूँकि, उचित पूर्व ज्ञान को देखते हुए, राशि को इस अपेक्षा के अनुपात में समायोजित किया जाना चाहिए कि पूर्व संभावनाओं को सही माना जाना चाहिए, इसके विपरीत साक्ष्य के अतिरक्त - उत्तराधिकार का नियम या उसके आगे का विश्लेषण देखें। उच्च मूल्य उचित हैं क्योंकि वास्तविक मूल्यों का पूर्व ज्ञान है ( टकसाल स्थिति सिक्के के लिए, मान लीजिए); कम मूल्य क्योंकि पूर्व ज्ञान है कि संभावित पूर्वाग्रह है, किंतु अज्ञात डिग्री ( मुड़े हुए सिक्के के लिए, मान लीजिए)।

अधिक सम्मिश्र दृष्टिकोण अन्य कारकों से घटनाओं के घनत्व का अनुमान लगाना और इसलिए समायोजित करना है।

उदाहरण

छद्मगणना को प्रेरित करने का विधि विशेष रूप से द्विपद डेटा के लिए अंतराल अनुमान के मध्यबिंदु के लिए सूत्र के माध्यम से है, विशेष रूप से द्विपद अनुपात विश्वास अंतराल सबसे प्रसिद्ध विल्सन & (1927) में एडविन बिडवेल विल्सन के कारण है: दोनों तरफ मानक विचलन के अनुरूप विल्सन स्कोर अंतराल का मध्यबिंदु है:

लगभग 95% विश्वास अंतराल के लिए z \approx 1.96 मानक विचलन लेने से प्रत्येक परिणाम के लिए 2 की छद्म गणना प्राप्त होती है, इसलिए कुल मिलाकर 4, जिसे बोलचाल की भाषा में "प्लस फोर नियम" के रूप में जाना जाता है:

यह एग्रेस्टी-कूल अंतराल का मध्यबिंदु (अग्रेस्टी & कौल 1998) भी है, .

ज्ञात घटना दर के स्थिति में सामान्यीकृत

अधिकांशतः आप ज्ञात मापदंडों (घटना दर) के साथ नियंत्रण संख्या के विरुद्ध अज्ञात परीक्षण संख्या के पूर्वाग्रह का परीक्षण कर रहे हैं। इस स्थिति में सुचारू अनुमानक की गणना करने के लिए समान संभाव्यता को नियंत्रण जनसंख्या की ज्ञात घटना दर से प्रतिस्थापित किया जाना चाहिए:

सुसंगतता जांच के रूप में, यदि अनुभवजन्य अनुमानक घटना दर के समान होता है, अर्थात , तो सुचारू अनुमानक से स्वतंत्र होता है और घटना दर के समान भी होता है।

अनुप्रयोग

वर्गीकरण

एडिटिव स्मूथिंग समान्यत: अनुभवहीन बेयस क्लासिफायर का घटक है।

सांख्यिकीय भाषा मॉडलिंग

प्राकृतिक भाषा प्रसंस्करण और सूचना पुनर्प्राप्ति के शब्दों के बैग मॉडल में, डेटा में दस्तावेज़ में प्रत्येक शब्द की घटनाओं की संख्या सम्मिलित होती है। एडिटिव स्मूथिंग उन शब्दों के लिए गैर-शून्य संभावनाओं को निर्दिष्ट करने की अनुमति देता है जो नमूने में नहीं होते हैं। वर्तमान के अध्ययनों से सिद्ध हुआ है कि भाषा-मॉडल-आधारित छद्म-प्रासंगिक प्रतिक्रिया और अनुशंसा प्रणाली जैसे कई पुनर्प्राप्ति कार्यों में एडिटिव स्मूथिंग अन्य संभाव्यता स्मूथिंग विधियों की तुलना में अधिक प्रभावी है। ।[5][6]

यह भी देखें

संदर्भ

  1. C.D. Manning, P. Raghavan and H. Schütze (2008). Introduction to Information Retrieval. Cambridge University Press, p. 260.
  2. Jurafsky, Daniel; Martin, James H. (June 2008). भाषण और भाषा प्रसंस्करण (2nd ed.). Prentice Hall. p. 132. ISBN 978-0-13-187321-6.
  3. Russell, Stuart; Norvig, Peter (2010). Artificial Intelligence: A Modern Approach (2nd ed.). Pearson Education, Inc. p. 863.
  4. Lecture 5 | Machine Learning (Stanford) at 1h10m into the lecture
  5. Hazimeh, Hussein; Zhai, ChengXiang. "छद्म प्रासंगिकता प्रतिक्रिया के लिए भाषा मॉडल में स्मूथिंग विधियों का स्वयंसिद्ध विश्लेषण". ICTIR '15 Proceedings of the 2015 International Conference on the Theory of Information Retrieval.
  6. Valcarce, Daniel; Parapar, Javier; Barreiro, Álvaro. "अनुशंसा प्रणाली की प्रासंगिकता-आधारित भाषा मॉडलिंग के लिए एडिटिव स्मूथिंग". CERI '16 Proceedings of the 4th Spanish Conference on Information Retrieval.


स्रोत

  • Wilson, E. B. (1927). "संभावित अनुमान, उत्तराधिकार का नियम और सांख्यिकीय अनुमान". Journal of the American Statistical Association. 22 (158): 209–212. doi:10.1080/01621459.1927.10502953. JSTOR 2276774.
  • Agresti, Alan; Coull, Brent A. (1998). "द्विपद अनुपातों के अंतराल अनुमान के लिए अनुमानित 'सटीक' से बेहतर है". The American Statistician. 52 (2): 119–126. doi:10.2307/2685469. JSTOR 2685469. MR 1628435.

बाहरी संबंध