न्यूनतम संदेश लंबाई

न्यूनतम संदेश लंबाई (एमएमएल) सांख्यिकीय मॉडल तुलना और चयन के लिए बायेसियन सूचना-सैद्धांतिक विधि है।^[1] यह ओकाम के रेजर का औपचारिक सूचना सिद्धांत पुनर्कथन प्रदान करता है: यहां तक कि जब मॉडल देखे गए डेटा के लिए फिट-सटीकता के माप के बराबर होते हैं, तो डेटा की सबसे संक्षिप्त व्याख्या उत्पन्न करने वाले के सही होने की अधिक संभावना होती है (जहां स्पष्टीकरण में शामिल होता है) मॉडल का विवरण, उसके बाद बताए गए मॉडल का उपयोग करके डेटा का दोषरहित संपीड़न)। एमएमएल का आविष्कार क्रिस वालेस (कंप्यूटर वैज्ञानिक) द्वारा किया गया था, जो पहली बार सेमिनल पेपर वर्गीकरण के लिए सूचना माप में दिखाई दिया था।^[2] एमएमएल का उद्देश्य केवल सैद्धांतिक निर्माण नहीं है, बल्कि ऐसी तकनीक के रूप में है जिसे व्यवहार में लागू किया जा सकता है।^[3] यह कोलमोगोरोव जटिलता की संबंधित अवधारणा से इस मायने में भिन्न है कि इसमें डेटा को मॉडल करने के लिए ट्यूरिंग पूर्णता | ट्यूरिंग-पूर्ण भाषा के उपयोग की आवश्यकता नहीं होती है।^[4]

परिभाषा

क्लाउड ई. शैनन की संचार का गणितीय सिद्धांत (1948) में कहा गया है कि इष्टतम कोड में, किसी घटना की संदेश लंबाई (बाइनरी में) $E$ , $\operatorname {length} (E)$ , कहाँ $E$ संभावना है $P(E)$ , द्वारा दिया गया है $\operatorname {length} (E)=-\log _{2}(P(E))$ .

बेयस प्रमेय बताता है कि (परिवर्तनीय) परिकल्पना की संभावना $H$ निश्चित प्रमाण दिये $E$ के लिए आनुपातिक है $P(E|H)P(H)$ , जो, सशर्त संभाव्यता की परिभाषा के अनुसार, के बराबर है $P(H\land E)$ . हम ऐसी उच्चतम पश्च संभाव्यता वाला मॉडल (परिकल्पना) चाहते हैं। मान लीजिए कि हम संदेश को एनकोड करते हैं जो मॉडल और डेटा दोनों को संयुक्त रूप से दर्शाता (वर्णन) करता है। तब से $\operatorname {length} (H\land E)=-\log _{2}(P(H\land E))$ , सबसे संभावित मॉडल में ऐसा संदेश सबसे छोटा होगा। संदेश दो भागों में विभाजित है: $-\log _{2}(P(H\land E))=-\log _{2}(P(H))+-\log _{2}(P(E|H))$ . पहला भाग मॉडल को ही एन्कोड करता है। दूसरे भाग में जानकारी होती है (उदाहरण के लिए, पैरामीटर के मान, या प्रारंभिक स्थितियां इत्यादि) जो मॉडल द्वारा संसाधित होने पर, देखे गए डेटा को आउटपुट करती है।

एमएमएल स्वाभाविक रूप से और सटीक रूप से फिट की अच्छाई के लिए मॉडल जटिलता का व्यापार करता है। अधिक जटिल मॉडल को बताने में अधिक समय लगता है (पहला भाग लंबा) लेकिन संभवतः डेटा को बेहतर ढंग से फिट करता है (छोटा दूसरा भाग)। इसलिए, एमएमएल मीट्रिक जटिल मॉडल का चयन नहीं करेगा जब तक कि वह मॉडल स्वयं के लिए भुगतान न करे।

निरंतर-मूल्यवान पैरामीटर

किसी मॉडल के लंबे होने का कारण यह हो सकता है कि इसके विभिन्न मापदंडों को अधिक सटीकता से बताया गया है, इस प्रकार अधिक अंकों के प्रसारण की आवश्यकता होती है। एमएमएल की अधिकांश शक्ति किसी मॉडल में मापदंडों को कितनी सटीकता से बताने के प्रबंधन और विभिन्न प्रकार के अनुमानों से प्राप्त होती है जो व्यवहार में इसे संभव बनाते हैं। इससे उपयोगी रूप से तुलना करना संभव हो जाता है, उदाहरण के लिए, मॉडल जिसमें कई पैरामीटर अस्पष्ट रूप से बताए गए हैं, उस मॉडल के मुकाबले कम पैरामीटर अधिक सटीक रूप से बताए गए हैं।

एमएमएल की मुख्य विशेषताएं

एमएमएल का उपयोग विभिन्न संरचना के मॉडल की तुलना करने के लिए किया जा सकता है। उदाहरण के लिए, इसका प्रारंभिक अनुप्रयोग कक्षाओं की इष्टतम संख्या के साथ मिश्रण मॉडल खोजने में था। मिश्रण मॉडल में अतिरिक्त कक्षाएं जोड़ने से डेटा को हमेशा अधिक सटीकता के साथ फिट किया जा सकेगा, लेकिन एमएमएल के अनुसार इसे उन कक्षाओं को परिभाषित करने वाले मापदंडों को एन्कोड करने के लिए आवश्यक अतिरिक्त बिट्स के मुकाबले तौला जाना चाहिए।
एमएमएल बायेसियन मॉडल तुलना की विधि है। यह प्रत्येक मॉडल को अंक देता है।
एमएमएल स्केल-अपरिवर्तनीय और सांख्यिकीय रूप से अपरिवर्तनीय है। कई बायेसियन चयन विधियों के विपरीत, एमएमएल को इसकी परवाह नहीं है कि आप लंबाई मापने से आयतन में या कार्टेशियन निर्देशांक से ध्रुवीय निर्देशांक में बदलते हैं।
एमएमएल सांख्यिकीय रूप से सुसंगत है। जैसी समस्याओं के लिए #CITEREFDoweWallace1997|नेमैन-स्कॉट (1948) समस्या या कारक विश्लेषण जहां प्रति पैरामीटर डेटा की मात्रा ऊपर सीमित है, एमएमएल सांख्यिकीय स्थिरता के साथ सभी मापदंडों का अनुमान लगा सकता है।
एमएमएल माप की सटीकता के लिए जिम्मेदार है। यह फिशर जानकारी का उपयोग करता है (वालेस-फ्रीमैन 1987 सन्निकटन में, या # में अन्य हाइपर-वॉल्यूम में)CITEREFWallace_(posthumous)2005) निरंतर मापदंडों को इष्टतम रूप से अलग करने के लिए। इसलिए पश्च भाग हमेशा संभाव्यता है, संभाव्यता घनत्व नहीं।
एमएमएल 1968 से उपयोग में है। एमएमएल कोडिंग योजनाएं कई वितरणों और कई प्रकार के मशीन सीखने वालों के लिए विकसित की गई हैं, जिनमें अप्रशिक्षित वर्गीकरण, निर्णय वृक्ष और ग्राफ, डीएनए अनुक्रम, बायेसियन नेटवर्क, तंत्रिका नेटवर्क (अब तक केवल परत) शामिल हैं। , छवि संपीड़न, छवि और फ़ंक्शन विभाजन, आदि।

यह भी देखें

एल्गोरिथम संभाव्यता
एल्गोरिथम सूचना सिद्धांत
व्याकरण प्रेरण
आगमनात्मक अनुमान
आगमनात्मक संभाव्यता
कोलमोगोरोव जटिलता - पूर्ण जटिलता (एक स्थिरांक के भीतर, यूनिवर्सल ट्यूरिंग मशीन की विशेष पसंद पर निर्भर करता है); एमएमएल आम तौर पर गणना योग्य सन्निकटन है (देखें)। ^[4]
न्यूनतम विवरण लंबाई - संभवतः भिन्न (गैर-बायेसियन) प्रेरणा के साथ विकल्प, एमएमएल के 10 साल बाद विकसित हुआ।
ओकाम का उस्तरा

संदर्भ

↑ Wallace, C. S. (Christopher S.), -2004. (2005). न्यूनतम संदेश लंबाई द्वारा सांख्यिकीय और आगमनात्मक अनुमान. New York: Springer. ISBN 9780387237954. OCLC 62889003.{{cite book}}: CS1 maint: multiple names: authors list (link)
↑ Wallace, C. S.; Boulton, D. M. (1968-08-01). "वर्गीकरण के लिए एक सूचना उपाय". The Computer Journal (in English). 11 (2): 185–194. doi:10.1093/comjnl/11.2.185. ISSN 0010-4620.
↑ Allison, Lloyd. (2019). ओखम के रेजर कोडिंग।. Springer. ISBN 978-3030094881. OCLC 1083131091.
↑ ^4.0 ^4.1 Wallace, C. S.; Dowe, D. L. (1999-01-01). "न्यूनतम संदेश लंबाई और कोलमोगोरोव जटिलता". The Computer Journal (in English). 42 (4): 270–283. doi:10.1093/comjnl/42.4.270. ISSN 0010-4620.

बाहरी संबंध

Original Publication:

Wallace; Boulton (August 1968). "An information measure for classification". Computer Journal. 11 (2): 185–194. doi:10.1093/comjnl/11.2.185.

Books:

Wallace, C.S. (May 2005). Statistical and Inductive Inference by Minimum Message Length. Information Science and Statistics. Springer-Verlag. doi:10.1007/0-387-27656-4. ISBN 978-0-387-23795-4.
Allison, L. (2018). Coding Ockham's Razor. Springer. doi:10.1007/978-3-319-76433-7. ISBN 978-3319764320. S2CID 19136282., on implementing MML, and source-code.

Anonymous

Search

न्यूनतम संदेश लंबाई

Namespaces

More

Page actions

Contents

परिभाषा

निरंतर-मूल्यवान पैरामीटर

एमएमएल की मुख्य विशेषताएं

यह भी देखें

संदर्भ

बाहरी संबंध

Navigation

Navigation

Wiki tools

Wiki tools

Anonymous

Search

न्यूनतम संदेश लंबाई

परिभाषा

निरंतर-मूल्यवान पैरामीटर

एमएमएल की मुख्य विशेषताएं

यह भी देखें

संदर्भ

बाहरी संबंध

Navigation

Wiki tools

Page tools

Other projects

Categories