योगात्मक चौरसाई

From Vigyanwiki
Revision as of 06:20, 7 July 2023 by alpha>Indicwiki (Created page with "{{short description|Statistical technique for smoothing categorical data}} {{for|the image processing technique|Laplacian smoothing}} आंकड़ों में, एड...")
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

आंकड़ों में, एडिटिव स्मूथिंग, जिसे पियरे-साइमन लाप्लास स्मूथिंग भी कहा जाता है[1] या जॉर्ज जेम्स लिडस्टोन चौरसाई , एक तकनीक है जिसका उपयोग श्रेणीबद्ध डेटा को स्मूथ करने के लिए किया जाता है। अवलोकन गणनाओं का एक सेट दिया गया एक से -आयामी बहुपद वितरण के साथ परीक्षण, गिनती का एक सुचारु संस्करण अनुमानक को देता है:

जहां चिकनी गिनती और छद्मगणना α > 0 एक स्मूथिंग पैरामीटर है। α = 0 कोई स्मूथिंग नहीं है। (यह पैरामीटर इसमें समझाया गया है § Pseudocountनीचे।) एडिटिव स्मूथिंग एक प्रकार का संकोचन अनुमानक है, क्योंकि परिणामी अनुमान अनुभवजन्य संभाव्यता (सापेक्ष आवृत्ति) के बीच होगा। , और असतत समान वितरण . लाप्लास के उत्तराधिकार के नियम का हवाला देते हुए, कुछ लेखकों ने तर्क दिया है[citation needed] वह α 1 होना चाहिए (जिस स्थिति में शब्द 'ऐड-वन स्मूथिंग'[2][3] भी प्रयोग किया जाता है)[further explanation needed], हालांकि व्यवहार में आम तौर पर छोटा मान चुना जाता है।

बायेसियन अनुमान के दृष्टिकोण से, यह पूर्व वितरण के रूप में पैरामीटर α के साथ एक सममित डिरिचलेट वितरण का उपयोग करते हुए, पश्च वितरण के अपेक्षित मूल्य से मेल खाता है। विशेष मामले में जहां श्रेणियों की संख्या 2 है, यह द्विपद वितरण के मापदंडों के लिए संयुग्म पूर्व के रूप में बीटा वितरण का उपयोग करने के बराबर है।

इतिहास

लाप्लास इस स्मूथिंग तकनीक के साथ तब आए जब उन्होंने इस संभावना का अनुमान लगाने की कोशिश की कि कल सूरज उगेगा। उनका तर्क यह था कि उगते सूरज के साथ दिनों का एक बड़ा नमूना देने पर भी, हम अभी भी पूरी तरह से आश्वस्त नहीं हो सकते हैं कि सूरज कल भी उगेगा (जिसे सूर्योदय समस्या के रूप में जाना जाता है)।[4]


छद्मगणना

एक छद्म गणना एक राशि है (आम तौर पर एक पूर्णांक नहीं, इसके नाम के बावजूद) उन डेटा के मॉडल (सार) में अपेक्षित संभावना को बदलने के लिए देखे गए मामलों की संख्या में जोड़ा जाता है, जब शून्य ज्ञात नहीं होता है। इसका यह नाम इसलिए रखा गया है, क्योंकि मोटे तौर पर कहें तो यह मूल्य की एक छद्म गणना है प्रत्येक श्रेणी की अतिरिक्त गिनती के समान ही पश्च वितरण में वजन होता है . यदि प्रत्येक आइटम की आवृत्ति है से बाहर नमूने, घटना की अनुभवजन्य संभावना है

लेकिन जब योगात्मक रूप से चिकना किया जाता है तो पिछली संभावना होती है

मानो प्रत्येक गिनती को बढ़ाना हो द्वारा संभवतः।

पूर्व ज्ञान के आधार पर, जो कभी-कभी एक व्यक्तिपरक मूल्य होता है, एक छद्मगणना में कोई भी गैर-नकारात्मक परिमित मूल्य हो सकता है। यदि परिभाषा के अनुसार यह असंभव है तो यह केवल शून्य हो सकता है (या संभावना को नजरअंदाज कर दिया जा सकता है), जैसे कि पाई के दशमलव अंक के एक अक्षर होने की संभावना, या एक भौतिक संभावना जिसे अस्वीकार कर दिया जाएगा और इसलिए गिना नहीं जाएगा, जैसे कि कंप्यूटर द्वारा किसी अक्षर को प्रिंट करना जब पीआई के लिए एक वैध कार्यक्रम चलाया जाता है, या बाहर रखा जाता है और कोई रुचि नहीं होने के कारण गिना नहीं जाता है, जैसे कि केवल शून्य और एक में रुचि हो। आम तौर पर, ऐसी भी संभावना है कि कोई भी मूल्य एक सीमित समय में गणना योग्य या देखने योग्य नहीं हो सकता है (रोकने की समस्या देखें)। लेकिन कम से कम एक संभावना में गैर-शून्य छद्मगणना होनी चाहिए, अन्यथा पहले अवलोकन से पहले किसी भी भविष्यवाणी की गणना नहीं की जा सकती। छद्मगणना के सापेक्ष मूल्य उनकी संभावनाओं की सापेक्ष पूर्व अपेक्षित संभावनाओं का प्रतिनिधित्व करते हैं। छद्मगणना का योग, जो बहुत बड़ा हो सकता है, अपेक्षित संभावना का निर्धारण करते समय सभी वास्तविक टिप्पणियों (प्रत्येक के लिए एक) की तुलना में पूर्व ज्ञान के अनुमानित वजन का प्रतिनिधित्व करता है।

किसी भी देखे गए डेटा सेट या नमूने (सांख्यिकी) में, विशेष रूप से कम-संभावना वाली घटना (संभावना सिद्धांत) और छोटे डेटा सेट के साथ, एक संभावित घटना के घटित न होने की संभावना होती है। इसलिए इसकी प्रेक्षित आवृत्ति शून्य है, जो स्पष्ट रूप से शून्य की संभावना दर्शाती है। यह अतिसरलीकरण गलत और अक्सर अनुपयोगी है, विशेष रूप से कृत्रिम तंत्रिका नेटवर्क और छिपे छिपा हुआ मार्कोव मॉडल जैसी संभाव्यता-आधारित मशीन सीखने की तकनीकों में। दुर्लभ (लेकिन असंभव नहीं) घटनाओं की संभावना को कृत्रिम रूप से समायोजित करके ताकि वे संभावनाएं बिल्कुल शून्य न हों, पीपीएम संपीड़न एल्गोरिदम|शून्य-आवृत्ति समस्याओं से बचा जाता है। क्रॉमवेल का नियम भी देखें।

सबसे सरल तरीका शून्य-गणना संभावनाओं सहित प्रत्येक देखी गई घटनाओं की संख्या में एक जोड़ना है। इसे कभी-कभी लाप्लास का उत्तराधिकार का नियम भी कहा जाता है। यह दृष्टिकोण प्रत्येक संभावित घटना के लिए संभावनाओं पर एक समान पूर्व वितरण मानने के बराबर है (सिम्पलेक्स को फैलाते हुए जहां प्रत्येक संभावना 0 और 1 के बीच है, और उन सभी का योग 1 है)।

पक्षपातपूर्ण संभाव्यता दृष्टिकोण के साथ जेफ़रीज़ पूर्व#एन-पक्षीय पासे का उपयोग करते हुए, प्रत्येक संभावित परिणाम में एक आधे की छद्म गणना जोड़ी जानी चाहिए।

स्यूडोकाउंट को केवल तभी सेट किया जाना चाहिए जब कोई पूर्व ज्ञान न हो - उदासीनता का सिद्धांत देखें। हालाँकि, उचित पूर्व ज्ञान को देखते हुए, राशि को इस अपेक्षा के अनुपात में समायोजित किया जाना चाहिए कि पूर्व संभावनाओं को सही माना जाना चाहिए, इसके विपरीत साक्ष्य के बावजूद - उत्तराधिकार का नियम#आगे का विश्लेषण देखें। उच्च मूल्य उचित हैं क्योंकि वास्तविक मूल्यों का पूर्व ज्ञान है (एक टकसाल स्थिति सिक्के के लिए, मान लीजिए); कम मूल्य क्योंकि पूर्व ज्ञान है कि संभावित पूर्वाग्रह है, लेकिन अज्ञात डिग्री (एक मुड़े हुए सिक्के के लिए, मान लीजिए)।

एक अधिक जटिल दृष्टिकोण अन्य कारकों से घटनाओं के घनत्व का अनुमान लगाना और तदनुसार समायोजित करना है।

उदाहरण

छद्मगणना को प्रेरित करने का एक तरीका, विशेष रूप से द्विपद डेटा के लिए, एक अंतराल अनुमान के मध्यबिंदु के लिए एक सूत्र के माध्यम से है, विशेष रूप से एक द्विपद अनुपात विश्वास अंतराल। सबसे प्रसिद्ध एडविन बिडवेल विल्सन के कारण है Wilson (1927): विल्सन स्कोर अंतराल के मध्यबिंदु के अनुरूप दोनों तरफ मानक विचलन है:

ले रहा 95% विश्वास अंतराल का अनुमान लगाने के लिए मानक विचलन () प्रत्येक परिणाम के लिए 2 की छद्म गणना उत्पन्न करता है, इसलिए कुल मिलाकर 4, बोलचाल की भाषा में प्लस चार नियम के रूप में जाना जाता है:

यह एग्रेस्टी-कूल अंतराल का मध्यबिंदु भी है, (Agresti & Coull 1998).

ज्ञात घटना दर के मामले में सामान्यीकृत

अक्सर आप ज्ञात मापदंडों (घटना दर) के साथ एक नियंत्रण आबादी के खिलाफ एक अज्ञात परीक्षण आबादी के पूर्वाग्रह का परीक्षण कर रहे हैं . इस मामले में एक समान संभावना नियंत्रण जनसंख्या की ज्ञात घटना दर द्वारा प्रतिस्थापित किया जाना चाहिए सुचारू अनुमानक की गणना करने के लिए:

एक सुसंगतता जांच के रूप में, यदि अनुभवजन्य अनुमानक घटना दर के बराबर होता है, यानी। , सुचारू अनुमानक स्वतंत्र हैऔर घटना दर के बराबर भी है।

अनुप्रयोग

वर्गीकरण

एडिटिव स्मूथिंग आमतौर पर अनुभवहीन बेयस क्लासिफायर का एक घटक है।

सांख्यिकीय भाषा मॉडलिंग

प्राकृतिक भाषा प्रसंस्करण और सूचना पुनर्प्राप्ति के शब्दों के एक बैग मॉडल में, डेटा में दस्तावेज़ में प्रत्येक शब्द की घटनाओं की संख्या शामिल होती है। एडिटिव स्मूथिंग उन शब्दों के लिए गैर-शून्य संभावनाओं को निर्दिष्ट करने की अनुमति देता है जो नमूने में नहीं होते हैं। हाल के अध्ययनों से साबित हुआ है कि भाषा-मॉडल-आधारित प्रासंगिकता फीडबैक#ब्लाइंड फीडबैक|छद्म-प्रासंगिक फीडबैक और अनुशंसा प्रणाली जैसे कई पुनर्प्राप्ति कार्यों में एडिटिव स्मूथिंग अन्य संभाव्यता स्मूथिंग विधियों की तुलना में अधिक प्रभावी है।[5][6]


यह भी देखें

संदर्भ

  1. C.D. Manning, P. Raghavan and H. Schütze (2008). Introduction to Information Retrieval. Cambridge University Press, p. 260.
  2. Jurafsky, Daniel; Martin, James H. (June 2008). भाषण और भाषा प्रसंस्करण (2nd ed.). Prentice Hall. p. 132. ISBN 978-0-13-187321-6.
  3. Russell, Stuart; Norvig, Peter (2010). Artificial Intelligence: A Modern Approach (2nd ed.). Pearson Education, Inc. p. 863.
  4. Lecture 5 | Machine Learning (Stanford) at 1h10m into the lecture
  5. Hazimeh, Hussein; Zhai, ChengXiang. "छद्म प्रासंगिकता प्रतिक्रिया के लिए भाषा मॉडल में स्मूथिंग विधियों का स्वयंसिद्ध विश्लेषण". ICTIR '15 Proceedings of the 2015 International Conference on the Theory of Information Retrieval.
  6. Valcarce, Daniel; Parapar, Javier; Barreiro, Álvaro. "अनुशंसा प्रणाली की प्रासंगिकता-आधारित भाषा मॉडलिंग के लिए एडिटिव स्मूथिंग". CERI '16 Proceedings of the 4th Spanish Conference on Information Retrieval.


स्रोत

  • Wilson, E. B. (1927). "संभावित अनुमान, उत्तराधिकार का नियम और सांख्यिकीय अनुमान". Journal of the American Statistical Association. 22 (158): 209–212. doi:10.1080/01621459.1927.10502953. JSTOR 2276774.
  • Agresti, Alan; Coull, Brent A. (1998). "द्विपद अनुपातों के अंतराल अनुमान के लिए अनुमानित 'सटीक' से बेहतर है". The American Statistician. 52 (2): 119–126. doi:10.2307/2685469. JSTOR 2685469. MR 1628435.

बाहरी संबंध