न्यूनतम विवरण लंबाई: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
 
(4 intermediate revisions by 4 users not shown)
Line 1: Line 1:
{{Short description|Model selection principle}}
{{Short description|Model selection principle}}
न्यूनतम विवरण लंबाई (एमडीएल) [[मॉडल चयन]] एक ऐसा सिद्धांत है जहां डेटा का सबसे छोटा विवरण सबसे ठीक मॉडल है। एमडीएल विधियां डेटा संपीड़न परिप्रेक्ष्य के माध्यम से सीखती हैं और कभी-कभी उन्हें ओकाम के रेजर के गणितीय अनुप्रयोगों के रूप में वर्णित किया जाता है। एमडीएल सिद्धांत को आगमनात्मक अनुमान और सीखने के अन्य रूपों तक बढ़ाया जा सकता है, उदाहरण के लिए अनुमान और अनुक्रमिक भविष्यवाणी, डेटा के भी मॉडल को स्पष्ट रूप से पहचाने बिना।
'''न्यूनतम विवरण लंबाई (एमडीएल)''' [[मॉडल चयन]] एक ऐसा सिद्धांत है जहां डेटा का सबसे छोटा विवरण सबसे ठीक मॉडल है। एमडीएल विधियां डेटा संपीड़न परिप्रेक्ष्य के माध्यम से सीखती हैं और कभी-कभी उन्हें ओकाम के रेजर के गणितीय अनुप्रयोगों के रूप में वर्णित किया जाता है। एमडीएल सिद्धांत को आगमनात्मक अनुमान और सीखने के अन्य रूपों तक बढ़ाया जा सकता है, इस प्रकार से उदाहरण के लिए अनुमान और अनुक्रमिक भविष्यवाणी, डेटा के भी मॉडल को स्पष्ट रूप से पहचाने बिना।


एमडीएल की उत्पत्ति अधिकांशतः [[सूचना सिद्धांत]] में हुई है और इसे सांख्यिकी, सैद्धांतिक कंप्यूटर विज्ञान और मशीन लर्निंग, और अधिक संकीर्ण [[कम्प्यूटेशनल शिक्षण सिद्धांत|संगणनात्मक शिक्षण सिद्धांत]] के सामान्य क्षेत्रों में विकसित किया गया है।
इस प्रकार से एमडीएल की उत्पत्ति अधिकांशतः [[सूचना सिद्धांत]] में हुई है और इसे सांख्यिकी, सैद्धांतिक कंप्यूटर विज्ञान और मशीन लर्निंग, और अधिक संकीर्ण '''संगणनात्मक शिक्षण सिद्धांत''' के सामान्य क्षेत्रों में विकसित किया गया है।


ऐतिहासिक रूप से, निश्चित संज्ञा वाक्यांश '''"न्यूनतम विवरण लंबाई ''सिद्धांत"'' के अलग-अलग, फिर भी परस्पर संबंधित, उपयोग हैं जो ''विवरण'' के अर्थ में भिन्न हैं:'''
ऐतिहासिक रूप से, निश्चित संज्ञा वाक्यांश '''"न्यूनतम विवरण लंबाई ''सिद्धांत"'' के अलग-अलग, फिर भी परस्पर संबंधित, उपयोग हैं जो ''विवरण'' के अर्थ में भिन्न हैं:'''
Line 11: Line 11:
==अवलोकन==
==अवलोकन==


सर्वोत्तम मॉडल के रूप में उपलब्ध डेटा की न्यूनतम लंबाई विवरण का चयन करना ओकैम के रेजर के रूप में पहचाने गए सिद्धांत का पालन करता है। कंप्यूटर प्रोग्रामन के आगमन से पूर्व, ऐसे विवरण तैयार करना वैज्ञानिक सिद्धांतकारों का बौद्धिक श्रम था। यह कंप्यूटर युग की तुलना में बहुत कम औपचारिक था। यदि दो वैज्ञानिकों के बीच सैद्धांतिक असहमति होती, तो वे अपने सिद्धांतों के बीच चयन करने के लिए संभवतः कभी औपचारिक रूप से ओकाम के रेजर का उपयोग कर पाते है। उनके निकट अलग-अलग डेटा समुच्चय और संभवतः अलग-अलग वर्णनात्मक भाषाएँ होंगी। फिर भी, विज्ञान उन्नत हुआ क्योंकि ओकाम का रेजर यह निर्धारित करने में अनौपचारिक मार्गदर्शक था कि कौन सा मॉडल सबसे ठीक था।
इस प्रकार से सर्वोत्तम मॉडल के रूप में उपलब्ध डेटा की न्यूनतम लंबाई विवरण का चयन करना ओकैम के रेजर के रूप में पहचाने गए सिद्धांत का पालन करता है। कंप्यूटर प्रोग्रामन के आगमन से पूर्व, ऐसे विवरण तैयार करना वैज्ञानिक सिद्धांतकारों का बौद्धिक श्रम था। यह कंप्यूटर युग की तुलना में बहुत कम औपचारिक था। यदि दो वैज्ञानिकों के बीच सैद्धांतिक असहमति होती, तो वे अपने सिद्धांतों के बीच चयन करने के लिए संभवतः कभी औपचारिक रूप से ओकाम के रेजर का उपयोग कर पाते है। उनके निकट अलग-अलग डेटा समुच्चय और संभवतः अलग-अलग वर्णनात्मक भाषाएँ होंगी। फिर भी, विज्ञान उन्नत हुआ क्योंकि ओकाम का रेजर यह निर्धारित करने में अनौपचारिक मार्गदर्शक था कि कौन सा मॉडल सबसे ठीक था।


औपचारिक भाषाओं और कंप्यूटर प्रोग्रामन के आगमन के साथ ओकाम के रेज़र को गणितीय रूप से परिभाषित किया गया। अवलोकनों के दिए गए समुच्चय के मॉडल, डेटा के बिट के रूप में एन्कोड किए गए, कंप्यूटर प्रोग्राम के रूप में बनाए जा सकते हैं जो उस डेटा को आउटपुट करते हैं। इसके बाद ओकाम का रेज़र औपचारिक रूप से सबसे छोटे प्रोग्राम का चयन कर सकता है, जिसे इस एल्गोरिदम सूचना के बिट में सर्वोत्तम मॉडल के रूप में मापा जाता है।
अतः औपचारिक भाषाओं और कंप्यूटर प्रोग्रामन के आगमन के साथ ओकाम के रेज़र को गणितीय रूप से परिभाषित किया गया। अवलोकनों के दिए गए समुच्चय के मॉडल, डेटा के बिट के रूप में एन्कोड किए गए, कंप्यूटर प्रोग्राम के रूप में बनाए जा सकते हैं जो उस डेटा को आउटपुट करते हैं। इसके बाद ओकाम का रेज़र औपचारिक रूप से सबसे छोटे प्रोग्राम का चयन कर सकता है, जिसे इस एल्गोरिदम सूचना के बिट में सर्वोत्तम मॉडल के रूप में मापा जाता है।


भ्रम से बचने के लिए, ध्यान दें कि एमडीएल सिद्धांत में ऐसा कुछ भी नहीं है जो यह दर्शाता हो कि मशीन ने मॉडल को मूर्त रूप देते हुए प्रोग्राम तैयार किया है। यह पूर्ण रूप से मनुष्यों का उत्पाद हो सकता है। एमडीएल सिद्धांत इस पर ध्यान दिए बिना लागू होता है कि कंप्यूटर पर चलाया जाने वाला विवरण मनुष्यों, मशीनों या उनके किसी संयोजन का उत्पाद है या नहीं। एमडीएल सिद्धांत के लिए मात्र यह आवश्यक है कि सबसे छोटा विवरण, निष्पादित होने पर, त्रुटि के बिना मूल डेटा समुच्चय तैयार करे।
भ्रम से बचने के लिए, ध्यान दें कि एमडीएल सिद्धांत में ऐसा कुछ भी नहीं है जो यह दर्शाता हो कि मशीन ने मॉडल को मूर्त रूप देते हुए प्रोग्राम तैयार किया है। यह पूर्ण रूप से मनुष्यों का उत्पाद हो सकता है। एमडीएल सिद्धांत इस पर ध्यान दिए बिना लागू होता है कि कंप्यूटर पर चलाया जाने वाला विवरण मनुष्यों, मशीनों या उनके किसी संयोजन का उत्पाद है या नहीं। एमडीएल सिद्धांत के लिए मात्र यह आवश्यक है कि सबसे छोटा विवरण, निष्पादित होने पर, त्रुटि के बिना मूल डेटा समुच्चय तैयार करे।
Line 19: Line 19:
===दो-भाग कोड===
===दो-भाग कोड===


कंप्यूटर प्रोग्राम में प्रोग्राम और शाब्दिक डेटा के बीच का अंतर सभी औपचारिक विवरणों पर लागू होता है और कभी-कभी इसे विवरण के दो भागों के रूप में संदर्भित किया जाता है। सांख्यिकीय एमडीएल सीखने में, ऐसे विवरण को प्रायः दो-भाग वाला कोड कहा जाता है।
इस प्रकार से कंप्यूटर प्रोग्राम में प्रोग्राम और शाब्दिक डेटा के बीच का अंतर सभी औपचारिक विवरणों पर लागू होता है और कभी-कभी इसे विवरण के दो भागों के रूप में संदर्भित किया जाता है। सांख्यिकीय एमडीएल सीखने में, ऐसे विवरण को प्रायः दो-भाग वाला कोड कहा जाता है।


==मशीन लर्निंग में एमडीएल==
==मशीन लर्निंग में एमडीएल==


एमडीएल मशीन लर्निंग में लागू होता है जब एल्गोरिदम (मशीनें) विवरण उत्पन्न करते हैं। सीखना तब होता है जब एल्गोरिदम समान डेटा समुच्चय का छोटा विवरण तैयार करता है।
अतः एमडीएल मशीन लर्निंग में लागू होता है जब एल्गोरिदम (मशीनें) विवरण उत्पन्न करते हैं। सीखना तब होता है जब एल्गोरिदम समान डेटा समुच्चय का छोटा विवरण तैयार करता है।


यद्यपि, डेटा समुच्चय की सैद्धांतिक न्यूनतम विवरण लंबाई, जिसे इसकी [[कोलमोगोरोव जटिलता]] कहा जाता है, अतः इसकी गणना नहीं की जा सकती है। कहने का तात्पर्य यह है कि, यद्यपि यादृच्छिक संयोग से एल्गोरिदम डेटा समुच्चय को आउटपुट करने वाले सभी में से सबसे छोटा प्रोग्राम उत्पन्न करता है, स्वचालित प्रमेय सिद्ध नहीं कर सकता है कि ऐसा कोई छोटा प्रोग्राम नहीं है। फिर भी, डेटासमुच्चय को आउटपुट करने वाले दो प्रोग्राम दिए गए हैं, एमडीएल सिद्धांत सर्वोत्तम मॉडल को मूर्त रूप देने के लिए दोनों में से छोटे को चुनता है।
यद्यपि, डेटा समुच्चय की सैद्धांतिक न्यूनतम विवरण लंबाई, जिसे इसकी [[कोलमोगोरोव जटिलता]] कहा जाता है, अतः इसकी गणना नहीं की जा सकती है। कहने का तात्पर्य यह है कि, यद्यपि यादृच्छिक संयोग से एल्गोरिदम डेटा समुच्चय को आउटपुट करने वाले सभी में से सबसे छोटा प्रोग्राम उत्पन्न करता है, स्वचालित प्रमेय सिद्ध नहीं कर सकता है कि ऐसा कोई छोटा प्रोग्राम नहीं है। फिर भी, डेटासमुच्चय को आउटपुट करने वाले दो प्रोग्राम दिए गए हैं, एमडीएल सिद्धांत सर्वोत्तम मॉडल को मूर्त रूप देने के लिए दोनों में से छोटे को चुनता है।
Line 29: Line 29:
==एल्गोरिदमिक एमडीएल लर्निंग पर वर्तमान कार्य==
==एल्गोरिदमिक एमडीएल लर्निंग पर वर्तमान कार्य==


वर्तमान में सांख्यिकीय के विपरीत, एल्गोरिदमिक की मशीन एमडीएल लर्निंग, डेटा मॉडल ने डेटा की बढ़ती उपलब्धता, गणना संसाधनों और सैद्धांतिक प्रगति के साथ ध्यान आकर्षित किया है।<ref>{{cite journal |last1=Zenil |first1=Hector |last2=Kiani |first2=Narsis A. |last3=Zea |first3=Allan A. |last4=Tegnér |first4=Jesper |title=एल्गोरिथम जनरेटिव मॉडल द्वारा कारण विखंडन|journal=Nature Machine Intelligence |date=January 2019 |volume=1 |issue=1 |pages=58–66 |doi=10.1038/s42256-018-0005-0 |hdl=10754/630919 |s2cid=86562557 |hdl-access=free }}</ref><ref>{{cite journal |title=Remodelling machine learning: An AI that thinks like a scientist |journal=Nature Machine Intelligence |date=28 January 2019 |pages=1 |doi=10.1038/s42256-019-0026-3 |s2cid=189929110 }}</ref> [[कृत्रिम सामान्य बुद्धि]] के बढ़ते क्षेत्र द्वारा दृष्टिकोणों को सूचित किया जाता है। अपनी मृत्यु से कुछ समय पूर्व, [[मार्विन मिंस्की]] ने शोध की इस दिशा के पक्ष में दृढ़ता से सामने आते हुए कहा:<ref>Archived at [https://ghostarchive.org/varchive/youtube/20211205/DfY-DRsE86s Ghostarchive]{{cbignore}} and the [https://web.archive.org/web/20151226130036/https://www.youtube.com/watch?v=DfY-DRsE86s Wayback Machine]{{cbignore}}: {{cite web| url = https://www.youtube.com/watch?v=DfY-DRsE86s&feature=youtu.be&t=5402| title = The Limits of Understanding | website=[[YouTube]]}}{{cbignore}}</ref>
वर्तमान में सांख्यिकीय के विपरीत, एल्गोरिदमिक की मशीन एमडीएल लर्निंग, डेटा मॉडल ने डेटा की बढ़ती उपलब्धता, गणना संसाधनों और सैद्धांतिक प्रगति के साथ ध्यान आकर्षित किया है।<ref>{{cite journal |last1=Zenil |first1=Hector |last2=Kiani |first2=Narsis A. |last3=Zea |first3=Allan A. |last4=Tegnér |first4=Jesper |title=एल्गोरिथम जनरेटिव मॉडल द्वारा कारण विखंडन|journal=Nature Machine Intelligence |date=January 2019 |volume=1 |issue=1 |pages=58–66 |doi=10.1038/s42256-018-0005-0 |hdl=10754/630919 |s2cid=86562557 |hdl-access=free }}</ref><ref>{{cite journal |title=Remodelling machine learning: An AI that thinks like a scientist |journal=Nature Machine Intelligence |date=28 January 2019 |pages=1 |doi=10.1038/s42256-019-0026-3 |s2cid=189929110 }}</ref> [[कृत्रिम सामान्य बुद्धि]] के बढ़ते क्षेत्र द्वारा दृष्टिकोणों को सूचित किया जाता है। इस प्रकार से अपनी मृत्यु से कुछ समय पूर्व, [[मार्विन मिंस्की]] ने शोध की इस दिशा के पक्ष में दृढ़ता से सामने आते हुए कहा:<ref>Archived at [https://ghostarchive.org/varchive/youtube/20211205/DfY-DRsE86s Ghostarchive]{{cbignore}} and the [https://web.archive.org/web/20151226130036/https://www.youtube.com/watch?v=DfY-DRsE86s Wayback Machine]{{cbignore}}: {{cite web| url = https://www.youtube.com/watch?v=DfY-DRsE86s&feature=youtu.be&t=5402| title = The Limits of Understanding | website=[[YouTube]]}}{{cbignore}}</ref>


{{quote|मुझे ऐसा लगता है कि गोडेल के बाद से सबसे महत्वपूर्ण खोज चैटिन, सोलोमोनोव और कोलमोगोरोव द्वारा एल्गोरिथमिक प्रायिकता नामक अवधारणा की खोज थी, जो अनुभवों के संग्रह को देखते हुए भविष्यवाणियां करने का एक मौलिक नवीन सिद्धांत है और यह एक सुंदर सिद्धांत है, प्रत्येक को इसे सीखना चाहिए, परन्तु इसमें एक समस्या है, वह यह है कि आप वस्तुतः यह गणना नहीं कर सकते कि यह सिद्धांत क्या भविष्यवाणी करता है क्योंकि यह बहुत जटिल है, इसके लिए अनंत मात्रा में कार्य की आवश्यकता होती है। यद्यपि, चैतिन, कोलमोगोरोव, सोलोमोनॉफ़ सिद्धांत का व्यावहारिक अनुमान लगाना संभव होना चाहिए जो आज हमारे निकट स्थित किसी भी वस्तु से ठीक भविष्यवाणियाँ करेगा। प्रत्येक किसी को इसके विषय में सब कुछ सीखना चाहिए और अपना शेष जीवन इस पर कार्य करते हुए बिताना चाहिए।|समझ की सीमाएं, विश्व विज्ञान महोत्सव, एनवाईसी, 14 दिसंबर 2014 पर पैनल चर्चा}}
{{quote|मुझे ऐसा लगता है कि गोडेल के बाद से सबसे महत्वपूर्ण खोज चैटिन, सोलोमोनोव और कोलमोगोरोव द्वारा एल्गोरिथमिक प्रायिकता नामक अवधारणा की खोज थी, जो अनुभवों के संग्रह को देखते हुए भविष्यवाणियां करने का एक मौलिक नवीन सिद्धांत है और यह एक सुंदर सिद्धांत है, प्रत्येक को इसे सीखना चाहिए, परन्तु इसमें एक समस्या है, वह यह है कि आप वस्तुतः यह गणना नहीं कर सकते कि यह सिद्धांत क्या भविष्यवाणी करता है क्योंकि यह बहुत जटिल है, इसके लिए अनंत मात्रा में कार्य की आवश्यकता होती है। यद्यपि, चैतिन, कोलमोगोरोव, सोलोमोनॉफ़ सिद्धांत का व्यावहारिक अनुमान लगाना संभव होना चाहिए जो आज हमारे निकट स्थित किसी भी वस्तु से ठीक भविष्यवाणियाँ करेगा। प्रत्येक किसी को इसके विषय में सब कुछ सीखना चाहिए और अपना शेष जीवन इस पर कार्य करते हुए बिताना चाहिए।|समझ की सीमाएं, विश्व विज्ञान महोत्सव, एनवाईसी, 14 दिसंबर 2014 पर पैनल चर्चा}}
Line 35: Line 35:
==सांख्यिकीय एमडीएल सीखना==
==सांख्यिकीय एमडीएल सीखना==


डेटा के किसी भी समुच्चय को परिमित (जैसे, बाइनरी अंक प्रणाली) [[वर्णमाला]] से [[प्रतीक|प्रतीकों]] की स्ट्रिंग द्वारा दर्शाया जा सकता है।
इस प्रकार से डेटा के किसी भी समुच्चय को परिमित (जैसे, बाइनरी अंक प्रणाली) [[वर्णमाला]] से [[प्रतीक|प्रतीकों]] की स्ट्रिंग द्वारा दर्शाया जा सकता है।


<blockquote>[एमडीएल सिद्धांत] निम्नलिखित अंतर्दृष्टि पर आधारित है: डेटा के दिए गए समुच्चय में किसी भी नियमितता का उपयोग डेटा संपीड़न के लिए किया जा सकता है, यानी डेटा का शाब्दिक वर्णन करने के लिए आवश्यकता से कम प्रतीकों का उपयोग करके इसका वर्णन करना। (ग्रुनवाल्ड, 2004)<ref name="peter">{{cite journal |last1=Grunwald |first1=Peter |title=न्यूनतम विवरण लंबाई सिद्धांत का एक ट्यूटोरियल परिचय|date=June 2004 |arxiv=math/0406077 |bibcode=2004math......6077G }}</ref></blockquote>
<blockquote>एमडीएल सिद्धांत निम्नलिखित अंतर्दृष्टि पर आधारित है: डेटा के दिए गए समुच्चय में किसी भी नियमितता का उपयोग डेटा संपीड़न के लिए किया जा सकता है, अथात डेटा का शाब्दिक वर्णन करने के लिए आवश्यकता से कम प्रतीकों का उपयोग करके इसका वर्णन करना। (ग्रुनवाल्ड, 2004)<ref name="peter">{{cite journal |last1=Grunwald |first1=Peter |title=न्यूनतम विवरण लंबाई सिद्धांत का एक ट्यूटोरियल परिचय|date=June 2004 |arxiv=math/0406077 |bibcode=2004math......6077G }}</ref></blockquote>


इसके आधार पर, 1978 में, जोर्मा रिसेनन ने एल्गोरिदम सूचना के अतिरिक्त [[एन्ट्रॉपी (सूचना सिद्धांत)]] का उपयोग करके एमडीएल लर्निंग एल्गोरिदम प्रकाशित किया। पूर्व 40 वर्षों में यह सांख्यिकीय और मशीन सीखने की प्रक्रियाओं के समृद्ध सिद्धांत के रूप में विकसित हुआ है, जो बायेसियन मॉडल चयन और औसत, लासो और रिज जैसे दंडात्मक विधियों के संयोजन के साथ सांख्यिकीय और मशीन सीखने की प्रक्रियाओं के एक समृद्ध सिद्धांत के रूप में विकसित हुआ है, जैसे कि लैस्सो और रिज, इत्यादि - ग्रुनवाल्ड और रोस (2020)<ref>{{Cite journal|last1=Grünwald|first1=Peter|last2=Roos|first2=Teemu|date=2020|title=न्यूनतम विवरण लंबाई पर दोबारा गौर किया गया|journal=International Journal of Mathematics for Industry|volume=11|issue=1|doi=10.1142/S2661335219300018|s2cid=201314867|doi-access=free}}</ref> सभी आधुनिक विकासों सहित एक परिचय देते हैं। रिसेनन ने इस विचार के साथ प्रारंभ किया: सभी सांख्यिकीय शिक्षा डेटा में नियमितता खोजने के विषय में है, और डेटा में नियमितता का वर्णन करने के लिए सबसे ठीक परिकल्पना भी वह है जो डेटा को सांख्यिकीय रूप से सबसे अधिक संपीड़ित करने में सक्षम है। अन्य सांख्यिकीय विधियों के जैसे, इसका उपयोग कुछ डेटा का उपयोग करके किसी मॉडल के मापदंडों को सीखने के लिए किया जा सकता है। यद्यपि, सामान्यतः मानक सांख्यिकीय पद्धतियाँ मानती हैं कि किसी मॉडल का सामान्य रूप निश्चित है। एमडीएल का मुख्य सामर्थ्य यह है कि इसका उपयोग किसी मॉडल के सामान्य रूप और उसके मापदंडों का चयन करने के लिए भी किया जा सकता है। रुचि की मात्रा (कभी-कभी मात्र मॉडल, कभी-कभी मात्र पैरामीटर, कभी-कभी ही समय में दोनों) को परिकल्पना कहा जाता है। मूल विचार तब [[दोषरहित संपीड़न]] (दोषरहित) दो-चरण कोड पर विचार करना है जो डेटा <math>D</math> को पहले लम्बाई <math> {L(D)} </math>के साथ एन्कोड करता है, पहले विचारित परिकल्पना <math>H</math> के समुच्चय में एक परिकल्पना <math>H</math> को एन्कोड करता है और फिर <math>{\cal H}</math> की सहायता से <math>D</math> को कोड करता है; सबसे सरल संदर्भ में इसका अर्थ मात्र <math>H</math>;<math display="block"> {L(D)} = \min_{H \in {\cal H}} \ (\ L(H) + L(D|H) \ ) \ </math>द्वारा की गई भविष्यवाणियों से डेटा के विचलन को एन्कोड करना है।
अतः इसके आधार पर, 1978 में, जोर्मा रिसेनन ने एल्गोरिदम सूचना के अतिरिक्त [[एन्ट्रॉपी (सूचना सिद्धांत)]] का उपयोग करके एमडीएल लर्निंग एल्गोरिदम प्रकाशित किया। पूर्व 40 वर्षों में यह सांख्यिकीय और मशीन सीखने की प्रक्रियाओं के समृद्ध सिद्धांत के रूप में विकसित हुआ है, जो बायेसियन मॉडल चयन और औसत, लासो और रिज जैसे दंडात्मक विधियों के संयोजन के साथ सांख्यिकीय और मशीन सीखने की प्रक्रियाओं के एक समृद्ध सिद्धांत के रूप में विकसित हुआ है, जैसे कि लैस्सो और रिज, इत्यादि - ग्रुनवाल्ड और रोस (2020)<ref>{{Cite journal|last1=Grünwald|first1=Peter|last2=Roos|first2=Teemu|date=2020|title=न्यूनतम विवरण लंबाई पर दोबारा गौर किया गया|journal=International Journal of Mathematics for Industry|volume=11|issue=1|doi=10.1142/S2661335219300018|s2cid=201314867|doi-access=free}}</ref> सभी आधुनिक विकासों सहित एक परिचय देते हैं। रिसेनन ने इस विचार के साथ प्रारंभ किया: सभी सांख्यिकीय शिक्षा डेटा में नियमितता खोजने के विषय में है, और डेटा में नियमितता का वर्णन करने के लिए सबसे ठीक परिकल्पना भी वह है जो डेटा को सांख्यिकीय रूप से सबसे अधिक संपीड़ित करने में सक्षम है। अन्य सांख्यिकीय विधियों के जैसे, इसका उपयोग कुछ डेटा का उपयोग करके किसी मॉडल के मापदंडों को सीखने के लिए किया जा सकता है। यद्यपि, सामान्यतः मानक सांख्यिकीय पद्धतियाँ मानती हैं कि किसी मॉडल का सामान्य रूप निश्चित है। एमडीएल का मुख्य सामर्थ्य यह है कि इसका उपयोग किसी मॉडल के सामान्य रूप और उसके मापदंडों का चयन करने के लिए भी किया जा सकता है। रुचि की मात्रा (कभी-कभी मात्र मॉडल, कभी-कभी मात्र पैरामीटर, कभी-कभी ही समय में दोनों) को परिकल्पना कहा जाता है। मूल विचार तब [[दोषरहित संपीड़न]] (दोषरहित) दो-चरण कोड पर विचार करना है जो डेटा <math>D</math> को पहले लम्बाई <math> {L(D)} </math>के साथ एन्कोड करता है, पहले विचारित परिकल्पना <math>H</math> के समुच्चय में एक परिकल्पना <math>H</math> को एन्कोड करता है और फिर <math>{\cal H}</math> की सहायता से <math>D</math> को कोड करता है; सबसे सरल संदर्भ में इसका अर्थ मात्र <math>H</math>;<math display="block"> {L(D)} = \min_{H \in {\cal H}} \ (\ L(H) + L(D|H) \ ) \ </math>द्वारा की गई भविष्यवाणियों से डेटा के विचलन को एन्कोड करना है।


इस न्यूनतम को प्राप्त करने वाले <math>H</math> को डेटा <math>D</math> की सबसे ठीक व्याख्या के रूप में देखा जाता है। एक सरल उदाहरण के रूप में, एक प्रतिगमन समस्या लें: डेटा <math>D</math> में बिंदुओं <math>D = (x_1,y_1), \ldots, (x_n,y_n)</math> का अनुक्रम सम्मिलित हो सकता है, समुच्चय <math> {\cal H} </math> <math>X</math> से <math>Y</math> सतक सभी बहुपदों का समुच्चय हो सकता है। घात (कहें) '''k''' के बहुपद '''''H''''' का वर्णन करने के लिए, किसी को पहले कुछ परिशुद्धता के लिए मापदंडों को अलग करना होगा; फिर किसी को इस परिशुद्धता (एक प्राकृतिक संख्या) का वर्णन करना होगा; इसके बाद, किसी को घात '''''k''''' (एक अन्य प्राकृतिक संख्या) का वर्णन करना होगा, और अंतिम चरण में, किसी को '''''k+1''''' पैरामीटर का वर्णन करना होगा; कुल लंबाई '''''L(H)''''' होगी। फिर कोई व्यक्ति x-मानों के लिए कुछ निश्चित कोड का उपयोग करके '''''D''''' में बिंदुओं का वर्णन करेगा और फिर '''''n''''' विचलन '''<math>y_i - H(x_i)</math>''' के लिए एक कोड का उपयोग करेगा।
इस न्यूनतम को प्राप्त करने वाले <math>H</math> को डेटा <math>D</math> की सबसे ठीक व्याख्या के रूप में देखा जाता है। एक सरल उदाहरण के रूप में, एक प्रतिगमन समस्या लें: डेटा <math>D</math> में बिंदुओं <math>D = (x_1,y_1), \ldots, (x_n,y_n)</math> का अनुक्रम सम्मिलित हो सकता है, समुच्चय <math> {\cal H} </math> <math>X</math> से <math>Y</math> सतक सभी बहुपदों का समुच्चय हो सकता है। घात (कहें) '''k''' के बहुपद '''''H''''' का वर्णन करने के लिए, किसी को पहले कुछ परिशुद्धता के लिए मापदंडों को अलग करना होगा; फिर किसी को इस परिशुद्धता (एक प्राकृतिक संख्या) का वर्णन करना होगा; इसके बाद, किसी को घात '''''k''''' (एक अन्य प्राकृतिक संख्या) का वर्णन करना होगा, और अंतिम चरण में, किसी को '''''k+1''''' पैरामीटर का वर्णन करना होगा; कुल लंबाई '''''L(H)''''' होगी। फिर कोई व्यक्ति x-मानों के लिए कुछ निश्चित कोड का उपयोग करके '''''D''''' में बिंदुओं का वर्णन करेगा और फिर '''''n''''' विचलन '''<math>y_i - H(x_i)</math>''' के लिए एक कोड का उपयोग करेगा।


व्यवहार में, व्यक्ति प्रायः (परन्तु सदैव नहीं) प्रायिकता मॉडल का उपयोग करता है। उदाहरण के लिए, कोई प्रत्येक बहुपद <math>H</math> को संबंधित सप्रतिबन्ध वितरण के साथ जोड़ता है, जो दर्शाता है कि दिए गए <math>X</math>, <math>Y</math> को सामान्यतः माध्य <math>H(X)</math> और कुछ भिन्नता <math>\sigma^2</math> के साथ वितरित किया जाता है जिसे या तो निर्धारित किया जा सकता है या एक मुक्त पैरामीटर के रूप में जोड़ा जा सकता है। फिर परिकल्पनाओं का समुच्चय <math>{\cal H}</math> एक रैखिक मॉडल, <math>Y=H(X)+\epsilon</math> की धारणा में बदल जाता है, जिसमें <math>H</math> एक बहुपद है।
व्यवहार में, व्यक्ति प्रायः (परन्तु सदैव नहीं) प्रायिकता मॉडल का उपयोग करता है। इस प्रकार से उदाहरण के लिए, कोई प्रत्येक बहुपद <math>H</math> को संबंधित सप्रतिबन्ध वितरण के साथ जोड़ता है, जो दर्शाता है कि दिए गए <math>X</math>, <math>Y</math> को सामान्यतः माध्य <math>H(X)</math> और कुछ भिन्नता <math>\sigma^2</math> के साथ वितरित किया जाता है जिसे या तो निर्धारित किया जा सकता है या एक मुक्त पैरामीटर के रूप में जोड़ा जा सकता है। फिर परिकल्पनाओं का समुच्चय <math>{\cal H}</math> एक रैखिक मॉडल, <math>Y=H(X)+\epsilon</math> की धारणा में बदल जाता है, जिसमें <math>H</math> एक बहुपद है।


इसके अतिरिक्त, किसी को प्रायः विशिष्ट पैरामीटर मानों में प्रत्यक्ष रूप से रूचि नहीं होती है, परन्तु उदाहरण के लिए, बहुपद की घात में। उस स्थिति में, कोई <math>{\cal H}</math> को <math>{\cal H} = \{ {\cal H}_0, {\cal H}_1, \ldots \}</math> के रूप में समूहित करता है जहां प्रत्येक <math>{\cal H}_j</math> इस परिकल्पना का प्रतिनिधित्व करता है कि डेटा को j-वीं घात बहुपद के रूप में सबसे ठीक वर्णित किया गया है। इसके बाद एक-भाग वाले कोड का उपयोग करके डेटा <math>D</math> को दी गई परिकल्पना <math>{\cal H}_j</math> को कोड किया जाता है, ताकि जब भी कोई परिकल्पना <math>H \in {\cal H}_j</math> डेटा को ठीक रूप से फिट करे, तो कोड लंबाई <math>L(D|H)</math> छोटा हो। ऐसे कोड के डिज़ाइन को सार्वभौमिक कोड (डेटा कम्प्रेशन) कहा जाता है। विभिन्न प्रकार के सार्वभौमिक कोड हैं जिनका उपयोग कोई भी कर सकता है, जो प्रायः लंबे डेटा अनुक्रमों के लिए समान लंबाई देते हैं परन्तु छोटे डेटा अनुक्रमों के लिए भिन्न होते हैं। 'सर्वोत्तम' (इस अर्थ में कि इसमें न्यूनतम अधिकतम इष्टतमता गुण है) सामान्यीकृत अधिकतम प्रायिकता (एनएमएल) या श्टार्कोव कोड हैं। कोड का अत्यधिक उपयोगी वर्ग बायेसियन सीमांत प्रायिकता कोड है। वितरण के घातांकीय वर्गों के लिए, जब जेफ़्रीज़ पूर्व का उपयोग किया जाता है और पैरामीटर स्थान उपयुक्त रूप से प्रतिबंधित होता है, तो ये असममित रूप से एनएमएल कोड के साथ मेल खाते हैं; यह एमडीएल सिद्धांत को वस्तुनिष्ठ बेयस मॉडल चयन के निकट संपर्क में लाता है, जिसमें व्यक्ति कभी-कभी जेफ़रीज़ के पूर्व को भी अपनाता है, यद्यपि यह अलग-अलग कारणों से है । मॉडल चयन के लिए एमडीएल दृष्टिकोण बड़ी संख्या में प्रतिदर्शों के लिए "औपचारिक रूप से [[बायेसियन सूचना मानदंड]] दृष्टिकोण के समान एक चयन मानदंड देता है"।<ref>{{cite book |doi=10.1007/978-0-387-84858-7_7 |chapter=Model Assessment and Selection |title=सांख्यिकीय सबक के तत्व|series=Springer Series in Statistics |year=2009 |last1=Hastie |first1=Trevor |last2=Tibshirani |first2=Robert |last3=Friedman |first3=Jerome |pages=219–259 |isbn=978-0-387-84857-0 }}</ref>
इसके अतिरिक्त, किसी को प्रायः विशिष्ट पैरामीटर मानों में प्रत्यक्ष रूप से रूचि नहीं होती है, परन्तु इस प्रकार से उदाहरण के लिए, बहुपद की घात में। उस स्थिति में, कोई <math>{\cal H}</math> को <math>{\cal H} = \{ {\cal H}_0, {\cal H}_1, \ldots \}</math> के रूप में समूहित करता है जहां प्रत्येक <math>{\cal H}_j</math> इस परिकल्पना का प्रतिनिधित्व करता है कि डेटा को j-वीं घात बहुपद के रूप में सबसे ठीक वर्णित किया गया है। इसके बाद एक-भाग वाले कोड का उपयोग करके डेटा <math>D</math> को दी गई परिकल्पना <math>{\cal H}_j</math> को कोड किया जाता है, ताकि जब भी कोई परिकल्पना <math>H \in {\cal H}_j</math> डेटा को ठीक रूप से फिट करे, तो कोड लंबाई <math>L(D|H)</math> छोटा हो। ऐसे कोड के डिज़ाइन को सार्वभौमिक कोड (डेटा कम्प्रेशन) कहा जाता है। विभिन्न प्रकार के सार्वभौमिक कोड हैं जिनका उपयोग कोई भी कर सकता है, जो प्रायः लंबे डेटा अनुक्रमों के लिए समान लंबाई देते हैं परन्तु छोटे डेटा अनुक्रमों के लिए भिन्न होते हैं। 'सर्वोत्तम' (इस अर्थ में कि इसमें न्यूनतम अधिकतम इष्टतमता गुण है) सामान्यीकृत अधिकतम प्रायिकता (एनएमएल) या श्टार्कोव कोड हैं। कोड का अत्यधिक उपयोगी वर्ग बायेसियन सीमांत प्रायिकता कोड है। वितरण के घातांकीय वर्गों के लिए, जब जेफ़्रीज़ पूर्व का उपयोग किया जाता है और पैरामीटर स्थान उपयुक्त रूप से प्रतिबंधित होता है, तो ये असममित रूप से एनएमएल कोड के साथ मेल खाते हैं; यह एमडीएल सिद्धांत को वस्तुनिष्ठ बेयस मॉडल चयन के निकट संपर्क में लाता है, जिसमें व्यक्ति कभी-कभी जेफ़रीज़ के पूर्व को भी अपनाता है, यद्यपि यह अलग-अलग कारणों से है। मॉडल चयन के लिए एमडीएल दृष्टिकोण बड़ी संख्या में प्रतिदर्शों के लिए "औपचारिक रूप से [[बायेसियन सूचना मानदंड]] दृष्टिकोण के समान एक चयन मानदंड देता है"।<ref>{{cite book |doi=10.1007/978-0-387-84858-7_7 |chapter=Model Assessment and Selection |title=सांख्यिकीय सबक के तत्व|series=Springer Series in Statistics |year=2009 |last1=Hastie |first1=Trevor |last2=Tibshirani |first2=Robert |last3=Friedman |first3=Jerome |pages=219–259 |isbn=978-0-387-84857-0 }}</ref>


===सांख्यिकीय एमडीएल लर्निंग का उदाहरण===
===सांख्यिकीय एमडीएल लर्निंग का उदाहरण===
एक सिक्के को 1000 बार उछाला जाता है और चित और पट की संख्या निर्दिष्ट की जाती है। दो मॉडल वर्गों पर विचार करें:
अतः एक सिक्के को 1000 बार उछाला जाता है और चित और पट की संख्या निर्दिष्ट की जाती है। इस प्रकार से दो मॉडल वर्गों पर विचार करें:
*प्रथम कोड है जो चित के लिए 0 या पट के लिए 1 के साथ परिणामों को दर्शाता है। यह कोड इस परिकल्पना का प्रतिनिधित्व करता है कि सिक्का निष्पक्ष है। इस कोड के अनुसार कोड की लंबाई सदैव ठीक 1000 बिट होती है।
*प्रथम कोड है जो चित के लिए 0 या पट के लिए 1 के साथ परिणामों को दर्शाता है। यह कोड इस परिकल्पना का प्रतिनिधित्व करता है कि सिक्का निष्पक्ष है। इस कोड के अनुसार कोड की लंबाई सदैव ठीक 1000 बिट होती है।
*दूसरे में वे सभी कोड सम्मिलित हैं जो कुछ विशिष्ट पूर्वाग्रह वाले सिक्के के लिए कुशल हैं, जो इस परिकल्पना का प्रतिनिधित्व करते हैं कि सिक्का निष्पक्ष नहीं है। मान लीजिए कि हम 510 चित और 490 पट देखते हैं। फिर दूसरे मॉडल वर्ग में सर्वोत्तम कोड के अनुसार कोड की लंबाई 1000 बिट से कम है।
*दूसरे में वे सभी कोड सम्मिलित हैं जो कुछ विशिष्ट पूर्वाग्रह वाले सिक्के के लिए कुशल हैं, जो इस परिकल्पना का प्रतिनिधित्व करते हैं कि सिक्का निष्पक्ष नहीं है। मान लीजिए कि हम 510 चित और 490 पट देखते हैं। फिर दूसरे मॉडल वर्ग में सर्वोत्तम कोड के अनुसार कोड की लंबाई 1000 बिट से कम है।
Line 55: Line 55:


===सांख्यिकीय एमडीएल संकेतन===
===सांख्यिकीय एमडीएल संकेतन===
एमडीएल सिद्धांत का केंद्र कोड लंबाई [[फ़ंक्शन (गणित)|फलन (गणित)]] और प्रायिकता वितरण के बीच एक-से-एक पत्राचार है (यह क्राफ्ट-मैकमिलन प्रमेय | क्राफ्ट-मैकमिलन असमानता से अनुसरण करता है)। किसी भी प्रायिकता वितरण <math>P</math> के लिए , कोड <math>C</math> बनाना संभव है ताकि <math>C(x)</math> की लंबाई (बिट में) <math>-\log_2 P(x)</math> के बराबर हो; यह कोड अपेक्षित कोड लंबाई को कम करता है। इसके विपरीत, एक कोड <math>C</math> दिए जाने पर, कोई प्रायिकता वितरण <math>P</math> का निर्माण कर सकता है, ताकि वही बना रहे। (यहां गोलाई संबंधी समस्याओं को अनदेखा कर दिया गया है।) दूसरे शब्दों में, कुशल कोड की खोज ठीक प्रायिकता वितरण की खोज के बराबर है।
एमडीएल सिद्धांत का केंद्र कोड लंबाई [[फ़ंक्शन (गणित)|फलन (गणित)]] और प्रायिकता वितरण के बीच एक-से-एक पत्राचार है (यह क्राफ्ट-मैकमिलन प्रमेय | क्राफ्ट-मैकमिलन असमानता से अनुसरण करता है)। किसी भी प्रायिकता वितरण <math>P</math> के लिए, कोड <math>C</math> बनाना संभव है ताकि <math>C(x)</math> की लंबाई (बिट में) <math>-\log_2 P(x)</math> के बराबर हो; यह कोड अपेक्षित कोड लंबाई को कम करता है। इसके विपरीत, एक कोड <math>C</math> दिए जाने पर, कोई प्रायिकता वितरण <math>P</math> का निर्माण कर सकता है, ताकि वही बना रहे। (यहां गोलाई संबंधी समस्याओं को अनदेखा कर दिया गया है।) दूसरे शब्दों में, कुशल कोड की खोज ठीक प्रायिकता वितरण की खोज के बराबर है।


===सांख्यिकीय एमडीएल लर्निंग की सीमाएं===
===सांख्यिकीय एमडीएल लर्निंग की सीमाएं===
सांख्यिकीय एमडीएल की विवरण भाषा संगणनात्मक रूप से सार्वभौमिक नहीं है। इसलिए, सिद्धांत रूप में भी, यह पुनरावर्ती प्राकृतिक प्रक्रियाओं के मॉडल नहीं सीख सकता है।
इस प्रकार से सांख्यिकीय एमडीएल की विवरण भाषा संगणनात्मक रूप से सार्वभौमिक नहीं है। इसलिए, सिद्धांत रूप में भी, यह पुनरावर्ती प्राकृतिक प्रक्रियाओं के मॉडल नहीं सीख सकता है।


===संबंधित अवधारणाएँ===
===संबंधित अवधारणाएँ===
Line 81: Line 81:
|year=2007
|year=2007
|publisher=Springer
|publisher=Springer
|accessdate=2010-07-03}}{{page needed|date=May 2020}}</ref> अंतिम उल्लिखित संदर्भ में रिसेनन [[कोलमोगोरोव संरचना कार्य]] पर एमडीएल के गणितीय आधार को आधार बनाता है।
|accessdate=2010-07-03}}{{page needed|date=May 2020}}</ref> अंतिम उल्लिखित संदर्भ में रिसेनन कोलमोगोरोव संरचना कार्य पर एमडीएल के गणितीय आधार को आधार बनाता है।


एमडीएल दर्शन के अनुसार, बायेसियन विधियों को निरस्त कर दिया जाना चाहिए यदि वे असुरक्षित पूर्व प्रायिकता पर आधारित हैं जिससे निकृष्ट परिणाम मिलेंगे। जो प्राथमिकताएं एमडीएल के दृष्टिकोण से स्वीकार्य हैं, उन्हें तथाकथित वस्तुनिष्ठ बायेसियन प्रायिकता विश्लेषण में भी चयनित किया जाता है; यद्यपि, वहाँ प्रेरणा सामान्यतः भिन्न होती है।<ref name="volker">{{cite journal |last1=Nannen |first1=Volker |title=मॉडल चयन, कोलमोगोरोव जटिलता और न्यूनतम विवरण लंबाई (एमडीएल) का संक्षिप्त परिचय|date=May 2010 |arxiv=1005.2364 |bibcode=2010arXiv1005.2364N }}</ref>
एमडीएल दर्शन के अनुसार, बायेसियन विधियों को निरस्त कर दिया जाना चाहिए यदि वे असुरक्षित पूर्व प्रायिकता पर आधारित हैं जिससे निकृष्ट परिणाम मिलेंगे। जो प्राथमिकताएं एमडीएल के दृष्टिकोण से स्वीकार्य हैं, उन्हें तथाकथित वस्तुनिष्ठ बायेसियन प्रायिकता विश्लेषण में भी चयनित किया जाता है; यद्यपि, वहाँ प्रेरणा सामान्यतः भिन्न होती है।<ref name="volker">{{cite journal |last1=Nannen |first1=Volker |title=मॉडल चयन, कोलमोगोरोव जटिलता और न्यूनतम विवरण लंबाई (एमडीएल) का संक्षिप्त परिचय|date=May 2010 |arxiv=1005.2364 |bibcode=2010arXiv1005.2364N }}</ref>
==अन्य पद्धति==
==अन्य पद्धति==
रिसेनन का सीखने का प्रथम सूचना-सैद्धांतिक दृष्टिकोण नहीं था; 1968 के प्रारंभ में वालेस और बोल्टन ने [[न्यूनतम संदेश लंबाई]] (एमएमएल) नामक संबंधित अवधारणा का संचालन किया। एमडीएल और एमएमएल के बीच अंतर निरंतर भ्रम का स्रोत है। अल्पज्ञता से, विधियाँ अधिकतर समतुल्य दिखाई देती हैं, परन्तु कुछ महत्वपूर्ण अंतर हैं, विशेषकर व्याख्या में:
रिसेनन का सीखने का प्रथम सूचना-सैद्धांतिक दृष्टिकोण नहीं था; 1968 के प्रारंभ में वालेस और बोल्टन ने [[न्यूनतम संदेश लंबाई]] (एमएमएल) नामक संबंधित अवधारणा का संचालन किया। एमडीएल और एमएमएल के बीच अंतर निरंतर भ्रम का स्रोत है। अल्पज्ञता से, विधियाँ अधिकतर समतुल्य दिखाई देती हैं, परन्तु कुछ महत्वपूर्ण अंतर हैं, इस प्रकार से विशेषकर व्याख्या में:
* एमएमएल पूर्ण रूप से व्यक्तिपरक बायेसियन दृष्टिकोण है: यह इस विचार से प्रारंभ होता है कि कोई व्यक्ति पूर्व वितरण के रूप में डेटा-जनक प्रक्रिया के विषय में अपनी मान्यताओं का प्रतिनिधित्व करता है। एमडीएल डेटा-जनक प्रक्रिया के विषय में धारणाओं से बचता है।
* एमएमएल पूर्ण रूप से व्यक्तिपरक बायेसियन दृष्टिकोण है: यह इस विचार से प्रारंभ होता है कि कोई व्यक्ति पूर्व वितरण के रूप में डेटा-जनक प्रक्रिया के विषय में अपनी मान्यताओं का प्रतिनिधित्व करता है। एमडीएल डेटा-जनक प्रक्रिया के विषय में धारणाओं से बचता है।
* दोनों विधियाँ दो-भाग कोड का उपयोग करती हैं: प्रथम भाग सदैव उस सूचना का प्रतिनिधित्व करता है जिसे कोई सीखने का प्रयास कर रहा है, जैसे मॉडल वर्ग का सूचकांक (मॉडल चयन) या पैरामीटर मान ([[पैरामीटर अनुमान]]); दूसरा भाग पूर्व भाग में दी गई सूचना दिए गए डेटा का एन्कोडिंग है। विधियों के बीच अंतर यह है कि, एमडीएल साहित्य में, यह पक्षपोषित किया जाता है कि अवांछित मापदंडों को कोड के दूसरे भाग में ले जाया जाना चाहिए, जहां उन्हें तथाकथित [[एक-भाग कोड]] का उपयोग करके डेटा के साथ दर्शाया जा सकता है, जो प्रायः दो-भाग वाले कोड की तुलना में अधिक कुशल होता है। एमएमएल के मूल विवरण में, सभी पैरामीटर पूर्व भाग में एन्कोड किए गए हैं, इसलिए सभी पैरामीटर सीखे गए हैं।
* दोनों विधियाँ दो-भाग कोड का उपयोग करती हैं: प्रथम भाग सदैव उस सूचना का प्रतिनिधित्व करता है जिसे कोई सीखने का प्रयास कर रहा है, जैसे मॉडल वर्ग का सूचकांक (मॉडल चयन) या पैरामीटर मान ([[पैरामीटर अनुमान]]); दूसरा भाग पूर्व भाग में दी गई सूचना दिए गए डेटा का एन्कोडिंग है। विधियों के बीच अंतर यह है कि, एमडीएल साहित्य में, यह पक्षपोषित किया जाता है कि अवांछित मापदंडों को कोड के दूसरे भाग में ले जाया जाना चाहिए, जहां उन्हें तथाकथित [[एक-भाग कोड]] का उपयोग करके डेटा के साथ दर्शाया जा सकता है, जो प्रायः दो-भाग वाले कोड की तुलना में अधिक कुशल होता है। एमएमएल के मूल विवरण में, सभी पैरामीटर पूर्व भाग में एन्कोड किए गए हैं, इसलिए सभी पैरामीटर सीखे गए हैं।
Line 105: Line 105:
*''Advances in Minimum Description Length'', [[MIT Press]], {{ISBN|0-262-07262-9}}.
*''Advances in Minimum Description Length'', [[MIT Press]], {{ISBN|0-262-07262-9}}.


{{Statistics}}
{{DEFAULTSORT:Minimum Description Length}}
{{Least Squares and Regression Analysis}}


{{DEFAULTSORT:Minimum Description Length}}[[Category: एल्गोरिथम सूचना सिद्धांत]]  
[[Category:CS1 errors]]
 
[[Category:Created On 07/07/2023|Minimum Description Length]]
 
[[Category:Lua-based templates|Minimum Description Length]]
 
[[Category:Machine Translated Page|Minimum Description Length]]
[[Category: Machine Translated Page]]
[[Category:Pages with script errors|Minimum Description Length]]
[[Category:Created On 07/07/2023]]
[[Category:Templates Vigyan Ready|Minimum Description Length]]
[[Category:Templates that add a tracking category|Minimum Description Length]]
[[Category:Templates that generate short descriptions|Minimum Description Length]]
[[Category:Templates using TemplateData|Minimum Description Length]]
[[Category:Wikipedia articles needing page number citations from May 2020]]
[[Category:एल्गोरिथम सूचना सिद्धांत|Minimum Description Length]]

Latest revision as of 17:35, 13 July 2023

न्यूनतम विवरण लंबाई (एमडीएल) मॉडल चयन एक ऐसा सिद्धांत है जहां डेटा का सबसे छोटा विवरण सबसे ठीक मॉडल है। एमडीएल विधियां डेटा संपीड़न परिप्रेक्ष्य के माध्यम से सीखती हैं और कभी-कभी उन्हें ओकाम के रेजर के गणितीय अनुप्रयोगों के रूप में वर्णित किया जाता है। एमडीएल सिद्धांत को आगमनात्मक अनुमान और सीखने के अन्य रूपों तक बढ़ाया जा सकता है, इस प्रकार से उदाहरण के लिए अनुमान और अनुक्रमिक भविष्यवाणी, डेटा के भी मॉडल को स्पष्ट रूप से पहचाने बिना।

इस प्रकार से एमडीएल की उत्पत्ति अधिकांशतः सूचना सिद्धांत में हुई है और इसे सांख्यिकी, सैद्धांतिक कंप्यूटर विज्ञान और मशीन लर्निंग, और अधिक संकीर्ण संगणनात्मक शिक्षण सिद्धांत के सामान्य क्षेत्रों में विकसित किया गया है।

ऐतिहासिक रूप से, निश्चित संज्ञा वाक्यांश "न्यूनतम विवरण लंबाई सिद्धांत" के अलग-अलग, फिर भी परस्पर संबंधित, उपयोग हैं जो विवरण के अर्थ में भिन्न हैं:

  • जोर्मा रिसेनन के सीखने के सिद्धांत के भीतर, सूचना सिद्धांत की केंद्रीय अवधारणा, मॉडल सांख्यिकीय परिकल्पनाएं हैं और विवरण को सार्वभौमिक कोड के रूप में परिभाषित किया गया है।
  • स्वचालित रूप से संक्षिप्त विवरण प्राप्त करने का रिसेनन[1] का 1978 का व्यावहारिक प्रथम प्रयास, बायेसियन सूचना मानदंड (बीआईसी) से संबंधित है।
  • एल्गोरिदम सूचना सिद्धांत के भीतर, जहां डेटा अनुक्रम की विवरण लंबाई उस डेटा समुच्चय को आउटपुट करने वाले सबसे छोटे प्रोग्राम की लंबाई है। इस संदर्भ में, इसे 'आदर्शीकृत' एमडीएल सिद्धांत के रूप में भी जाना जाता है और यह सोलोमनॉफ के आगमनात्मक अनुमान के सिद्धांत से निकटता से संबंधित है, जो यह है कि डेटा समुच्चय का सबसे ठीक मॉडल उसके सबसे छोटे स्व-निष्कर्षण संग्रह द्वारा दर्शाया जाता है।

अवलोकन

इस प्रकार से सर्वोत्तम मॉडल के रूप में उपलब्ध डेटा की न्यूनतम लंबाई विवरण का चयन करना ओकैम के रेजर के रूप में पहचाने गए सिद्धांत का पालन करता है। कंप्यूटर प्रोग्रामन के आगमन से पूर्व, ऐसे विवरण तैयार करना वैज्ञानिक सिद्धांतकारों का बौद्धिक श्रम था। यह कंप्यूटर युग की तुलना में बहुत कम औपचारिक था। यदि दो वैज्ञानिकों के बीच सैद्धांतिक असहमति होती, तो वे अपने सिद्धांतों के बीच चयन करने के लिए संभवतः कभी औपचारिक रूप से ओकाम के रेजर का उपयोग कर पाते है। उनके निकट अलग-अलग डेटा समुच्चय और संभवतः अलग-अलग वर्णनात्मक भाषाएँ होंगी। फिर भी, विज्ञान उन्नत हुआ क्योंकि ओकाम का रेजर यह निर्धारित करने में अनौपचारिक मार्गदर्शक था कि कौन सा मॉडल सबसे ठीक था।

अतः औपचारिक भाषाओं और कंप्यूटर प्रोग्रामन के आगमन के साथ ओकाम के रेज़र को गणितीय रूप से परिभाषित किया गया। अवलोकनों के दिए गए समुच्चय के मॉडल, डेटा के बिट के रूप में एन्कोड किए गए, कंप्यूटर प्रोग्राम के रूप में बनाए जा सकते हैं जो उस डेटा को आउटपुट करते हैं। इसके बाद ओकाम का रेज़र औपचारिक रूप से सबसे छोटे प्रोग्राम का चयन कर सकता है, जिसे इस एल्गोरिदम सूचना के बिट में सर्वोत्तम मॉडल के रूप में मापा जाता है।

भ्रम से बचने के लिए, ध्यान दें कि एमडीएल सिद्धांत में ऐसा कुछ भी नहीं है जो यह दर्शाता हो कि मशीन ने मॉडल को मूर्त रूप देते हुए प्रोग्राम तैयार किया है। यह पूर्ण रूप से मनुष्यों का उत्पाद हो सकता है। एमडीएल सिद्धांत इस पर ध्यान दिए बिना लागू होता है कि कंप्यूटर पर चलाया जाने वाला विवरण मनुष्यों, मशीनों या उनके किसी संयोजन का उत्पाद है या नहीं। एमडीएल सिद्धांत के लिए मात्र यह आवश्यक है कि सबसे छोटा विवरण, निष्पादित होने पर, त्रुटि के बिना मूल डेटा समुच्चय तैयार करे।

दो-भाग कोड

इस प्रकार से कंप्यूटर प्रोग्राम में प्रोग्राम और शाब्दिक डेटा के बीच का अंतर सभी औपचारिक विवरणों पर लागू होता है और कभी-कभी इसे विवरण के दो भागों के रूप में संदर्भित किया जाता है। सांख्यिकीय एमडीएल सीखने में, ऐसे विवरण को प्रायः दो-भाग वाला कोड कहा जाता है।

मशीन लर्निंग में एमडीएल

अतः एमडीएल मशीन लर्निंग में लागू होता है जब एल्गोरिदम (मशीनें) विवरण उत्पन्न करते हैं। सीखना तब होता है जब एल्गोरिदम समान डेटा समुच्चय का छोटा विवरण तैयार करता है।

यद्यपि, डेटा समुच्चय की सैद्धांतिक न्यूनतम विवरण लंबाई, जिसे इसकी कोलमोगोरोव जटिलता कहा जाता है, अतः इसकी गणना नहीं की जा सकती है। कहने का तात्पर्य यह है कि, यद्यपि यादृच्छिक संयोग से एल्गोरिदम डेटा समुच्चय को आउटपुट करने वाले सभी में से सबसे छोटा प्रोग्राम उत्पन्न करता है, स्वचालित प्रमेय सिद्ध नहीं कर सकता है कि ऐसा कोई छोटा प्रोग्राम नहीं है। फिर भी, डेटासमुच्चय को आउटपुट करने वाले दो प्रोग्राम दिए गए हैं, एमडीएल सिद्धांत सर्वोत्तम मॉडल को मूर्त रूप देने के लिए दोनों में से छोटे को चुनता है।

एल्गोरिदमिक एमडीएल लर्निंग पर वर्तमान कार्य

वर्तमान में सांख्यिकीय के विपरीत, एल्गोरिदमिक की मशीन एमडीएल लर्निंग, डेटा मॉडल ने डेटा की बढ़ती उपलब्धता, गणना संसाधनों और सैद्धांतिक प्रगति के साथ ध्यान आकर्षित किया है।[2][3] कृत्रिम सामान्य बुद्धि के बढ़ते क्षेत्र द्वारा दृष्टिकोणों को सूचित किया जाता है। इस प्रकार से अपनी मृत्यु से कुछ समय पूर्व, मार्विन मिंस्की ने शोध की इस दिशा के पक्ष में दृढ़ता से सामने आते हुए कहा:[4]

मुझे ऐसा लगता है कि गोडेल के बाद से सबसे महत्वपूर्ण खोज चैटिन, सोलोमोनोव और कोलमोगोरोव द्वारा एल्गोरिथमिक प्रायिकता नामक अवधारणा की खोज थी, जो अनुभवों के संग्रह को देखते हुए भविष्यवाणियां करने का एक मौलिक नवीन सिद्धांत है और यह एक सुंदर सिद्धांत है, प्रत्येक को इसे सीखना चाहिए, परन्तु इसमें एक समस्या है, वह यह है कि आप वस्तुतः यह गणना नहीं कर सकते कि यह सिद्धांत क्या भविष्यवाणी करता है क्योंकि यह बहुत जटिल है, इसके लिए अनंत मात्रा में कार्य की आवश्यकता होती है। यद्यपि, चैतिन, कोलमोगोरोव, सोलोमोनॉफ़ सिद्धांत का व्यावहारिक अनुमान लगाना संभव होना चाहिए जो आज हमारे निकट स्थित किसी भी वस्तु से ठीक भविष्यवाणियाँ करेगा। प्रत्येक किसी को इसके विषय में सब कुछ सीखना चाहिए और अपना शेष जीवन इस पर कार्य करते हुए बिताना चाहिए।

— समझ की सीमाएं, विश्व विज्ञान महोत्सव, एनवाईसी, 14 दिसंबर 2014 पर पैनल चर्चा

सांख्यिकीय एमडीएल सीखना

इस प्रकार से डेटा के किसी भी समुच्चय को परिमित (जैसे, बाइनरी अंक प्रणाली) वर्णमाला से प्रतीकों की स्ट्रिंग द्वारा दर्शाया जा सकता है।

एमडीएल सिद्धांत निम्नलिखित अंतर्दृष्टि पर आधारित है: डेटा के दिए गए समुच्चय में किसी भी नियमितता का उपयोग डेटा संपीड़न के लिए किया जा सकता है, अथात डेटा का शाब्दिक वर्णन करने के लिए आवश्यकता से कम प्रतीकों का उपयोग करके इसका वर्णन करना। (ग्रुनवाल्ड, 2004)[5]

अतः इसके आधार पर, 1978 में, जोर्मा रिसेनन ने एल्गोरिदम सूचना के अतिरिक्त एन्ट्रॉपी (सूचना सिद्धांत) का उपयोग करके एमडीएल लर्निंग एल्गोरिदम प्रकाशित किया। पूर्व 40 वर्षों में यह सांख्यिकीय और मशीन सीखने की प्रक्रियाओं के समृद्ध सिद्धांत के रूप में विकसित हुआ है, जो बायेसियन मॉडल चयन और औसत, लासो और रिज जैसे दंडात्मक विधियों के संयोजन के साथ सांख्यिकीय और मशीन सीखने की प्रक्रियाओं के एक समृद्ध सिद्धांत के रूप में विकसित हुआ है, जैसे कि लैस्सो और रिज, इत्यादि - ग्रुनवाल्ड और रोस (2020)[6] सभी आधुनिक विकासों सहित एक परिचय देते हैं। रिसेनन ने इस विचार के साथ प्रारंभ किया: सभी सांख्यिकीय शिक्षा डेटा में नियमितता खोजने के विषय में है, और डेटा में नियमितता का वर्णन करने के लिए सबसे ठीक परिकल्पना भी वह है जो डेटा को सांख्यिकीय रूप से सबसे अधिक संपीड़ित करने में सक्षम है। अन्य सांख्यिकीय विधियों के जैसे, इसका उपयोग कुछ डेटा का उपयोग करके किसी मॉडल के मापदंडों को सीखने के लिए किया जा सकता है। यद्यपि, सामान्यतः मानक सांख्यिकीय पद्धतियाँ मानती हैं कि किसी मॉडल का सामान्य रूप निश्चित है। एमडीएल का मुख्य सामर्थ्य यह है कि इसका उपयोग किसी मॉडल के सामान्य रूप और उसके मापदंडों का चयन करने के लिए भी किया जा सकता है। रुचि की मात्रा (कभी-कभी मात्र मॉडल, कभी-कभी मात्र पैरामीटर, कभी-कभी ही समय में दोनों) को परिकल्पना कहा जाता है। मूल विचार तब दोषरहित संपीड़न (दोषरहित) दो-चरण कोड पर विचार करना है जो डेटा को पहले लम्बाई के साथ एन्कोड करता है, पहले विचारित परिकल्पना के समुच्चय में एक परिकल्पना को एन्कोड करता है और फिर की सहायता से को कोड करता है; सबसे सरल संदर्भ में इसका अर्थ मात्र ;

द्वारा की गई भविष्यवाणियों से डेटा के विचलन को एन्कोड करना है।

इस न्यूनतम को प्राप्त करने वाले को डेटा की सबसे ठीक व्याख्या के रूप में देखा जाता है। एक सरल उदाहरण के रूप में, एक प्रतिगमन समस्या लें: डेटा में बिंदुओं का अनुक्रम सम्मिलित हो सकता है, समुच्चय से सतक सभी बहुपदों का समुच्चय हो सकता है। घात (कहें) k के बहुपद H का वर्णन करने के लिए, किसी को पहले कुछ परिशुद्धता के लिए मापदंडों को अलग करना होगा; फिर किसी को इस परिशुद्धता (एक प्राकृतिक संख्या) का वर्णन करना होगा; इसके बाद, किसी को घात k (एक अन्य प्राकृतिक संख्या) का वर्णन करना होगा, और अंतिम चरण में, किसी को k+1 पैरामीटर का वर्णन करना होगा; कुल लंबाई L(H) होगी। फिर कोई व्यक्ति x-मानों के लिए कुछ निश्चित कोड का उपयोग करके D में बिंदुओं का वर्णन करेगा और फिर n विचलन के लिए एक कोड का उपयोग करेगा।

व्यवहार में, व्यक्ति प्रायः (परन्तु सदैव नहीं) प्रायिकता मॉडल का उपयोग करता है। इस प्रकार से उदाहरण के लिए, कोई प्रत्येक बहुपद को संबंधित सप्रतिबन्ध वितरण के साथ जोड़ता है, जो दर्शाता है कि दिए गए , को सामान्यतः माध्य और कुछ भिन्नता के साथ वितरित किया जाता है जिसे या तो निर्धारित किया जा सकता है या एक मुक्त पैरामीटर के रूप में जोड़ा जा सकता है। फिर परिकल्पनाओं का समुच्चय एक रैखिक मॉडल, की धारणा में बदल जाता है, जिसमें एक बहुपद है।

इसके अतिरिक्त, किसी को प्रायः विशिष्ट पैरामीटर मानों में प्रत्यक्ष रूप से रूचि नहीं होती है, परन्तु इस प्रकार से उदाहरण के लिए, बहुपद की घात में। उस स्थिति में, कोई को के रूप में समूहित करता है जहां प्रत्येक इस परिकल्पना का प्रतिनिधित्व करता है कि डेटा को j-वीं घात बहुपद के रूप में सबसे ठीक वर्णित किया गया है। इसके बाद एक-भाग वाले कोड का उपयोग करके डेटा को दी गई परिकल्पना को कोड किया जाता है, ताकि जब भी कोई परिकल्पना डेटा को ठीक रूप से फिट करे, तो कोड लंबाई छोटा हो। ऐसे कोड के डिज़ाइन को सार्वभौमिक कोड (डेटा कम्प्रेशन) कहा जाता है। विभिन्न प्रकार के सार्वभौमिक कोड हैं जिनका उपयोग कोई भी कर सकता है, जो प्रायः लंबे डेटा अनुक्रमों के लिए समान लंबाई देते हैं परन्तु छोटे डेटा अनुक्रमों के लिए भिन्न होते हैं। 'सर्वोत्तम' (इस अर्थ में कि इसमें न्यूनतम अधिकतम इष्टतमता गुण है) सामान्यीकृत अधिकतम प्रायिकता (एनएमएल) या श्टार्कोव कोड हैं। कोड का अत्यधिक उपयोगी वर्ग बायेसियन सीमांत प्रायिकता कोड है। वितरण के घातांकीय वर्गों के लिए, जब जेफ़्रीज़ पूर्व का उपयोग किया जाता है और पैरामीटर स्थान उपयुक्त रूप से प्रतिबंधित होता है, तो ये असममित रूप से एनएमएल कोड के साथ मेल खाते हैं; यह एमडीएल सिद्धांत को वस्तुनिष्ठ बेयस मॉडल चयन के निकट संपर्क में लाता है, जिसमें व्यक्ति कभी-कभी जेफ़रीज़ के पूर्व को भी अपनाता है, यद्यपि यह अलग-अलग कारणों से है। मॉडल चयन के लिए एमडीएल दृष्टिकोण बड़ी संख्या में प्रतिदर्शों के लिए "औपचारिक रूप से बायेसियन सूचना मानदंड दृष्टिकोण के समान एक चयन मानदंड देता है"।[7]

सांख्यिकीय एमडीएल लर्निंग का उदाहरण

अतः एक सिक्के को 1000 बार उछाला जाता है और चित और पट की संख्या निर्दिष्ट की जाती है। इस प्रकार से दो मॉडल वर्गों पर विचार करें:

  • प्रथम कोड है जो चित के लिए 0 या पट के लिए 1 के साथ परिणामों को दर्शाता है। यह कोड इस परिकल्पना का प्रतिनिधित्व करता है कि सिक्का निष्पक्ष है। इस कोड के अनुसार कोड की लंबाई सदैव ठीक 1000 बिट होती है।
  • दूसरे में वे सभी कोड सम्मिलित हैं जो कुछ विशिष्ट पूर्वाग्रह वाले सिक्के के लिए कुशल हैं, जो इस परिकल्पना का प्रतिनिधित्व करते हैं कि सिक्का निष्पक्ष नहीं है। मान लीजिए कि हम 510 चित और 490 पट देखते हैं। फिर दूसरे मॉडल वर्ग में सर्वोत्तम कोड के अनुसार कोड की लंबाई 1000 बिट से कम है।

इस कारण से, अनुभवहीन सांख्यिकीय पद्धति डेटा के लिए ठीक स्पष्टीकरण के रूप में दूसरे मॉडल को चुन सकती है। यद्यपि, एमडीएल दृष्टिकोण मात्र सर्वश्रेष्ठ का उपयोग करने के अतिरिक्त, परिकल्पना के आधार पर एकल कोड का निर्माण करेगा। यह कोड सामान्यीकृत अधिकतम प्रायिकता कोड या बायेसियन कोड हो सकता है। यदि ऐसे कोड का उपयोग किया जाता है, तो दूसरे मॉडल वर्ग के आधार पर कुल कोड लंबाई 1000 बिट से बड़ी होगी। इसलिए, एमडीएल दृष्टिकोण का पालन करते समय निष्कर्ष अनिवार्य रूप से है कि पक्षपाती सिक्के की परिकल्पना का समर्थन करने के लिए पर्याप्त परिमाण नहीं हैं, यद्यपि दूसरे मॉडल वर्ग का सबसे ठीक तत्व डेटा के लिए ठीक फिट प्रदान करता है।

सांख्यिकीय एमडीएल संकेतन

एमडीएल सिद्धांत का केंद्र कोड लंबाई फलन (गणित) और प्रायिकता वितरण के बीच एक-से-एक पत्राचार है (यह क्राफ्ट-मैकमिलन प्रमेय | क्राफ्ट-मैकमिलन असमानता से अनुसरण करता है)। किसी भी प्रायिकता वितरण के लिए, कोड बनाना संभव है ताकि की लंबाई (बिट में) के बराबर हो; यह कोड अपेक्षित कोड लंबाई को कम करता है। इसके विपरीत, एक कोड दिए जाने पर, कोई प्रायिकता वितरण का निर्माण कर सकता है, ताकि वही बना रहे। (यहां गोलाई संबंधी समस्याओं को अनदेखा कर दिया गया है।) दूसरे शब्दों में, कुशल कोड की खोज ठीक प्रायिकता वितरण की खोज के बराबर है।

सांख्यिकीय एमडीएल लर्निंग की सीमाएं

इस प्रकार से सांख्यिकीय एमडीएल की विवरण भाषा संगणनात्मक रूप से सार्वभौमिक नहीं है। इसलिए, सिद्धांत रूप में भी, यह पुनरावर्ती प्राकृतिक प्रक्रियाओं के मॉडल नहीं सीख सकता है।

संबंधित अवधारणाएँ

सांख्यिकीय एमडीएल सीखना ऊपर उल्लिखित कोड और प्रायिकता वितरण के बीच पत्राचार के माध्यम से प्रायिकता सिद्धांत और आंकड़ों से बहुत दृढ़ता से जुड़ा हुआ है। इसने कुछ शोधकर्ताओं को एमडीएल को बायेसियन अनुमान के समकक्ष देखने के लिए प्रेरित किया है: एमडीएल में मॉडल और डेटा की कोड लंबाई क्रमशः बायेसियन संरचना में पूर्व प्रायिकता और सीमांत प्रायिकता के अनुरूप है।[8]

जबकि बायेसियन मशीनरी प्रायः कुशल एमडीएल कोड बनाने में उपयोगी होती है, एमडीएल संरचना अन्य कोड को भी समायोजित करता है जो बायेसियन नहीं हैं। उदाहरण श्टार्कोव सामान्यीकृत अधिकतम प्रायिकता कोड है, जो वर्तमान एमडीएल सिद्धांत में केंद्रीय भूमिका निभाता है, परन्तु बायेसियन अनुमान में इसका कोई समकक्ष नहीं है। इसके अतिरिक्त, रिसेनन इस बात पर बल देते हैं कि हमें वास्तविक प्रायिकता मॉडल के विषय में कोई धारणा नहीं बनानी चाहिए।[9][10] अंतिम उल्लिखित संदर्भ में रिसेनन कोलमोगोरोव संरचना कार्य पर एमडीएल के गणितीय आधार को आधार बनाता है।

एमडीएल दर्शन के अनुसार, बायेसियन विधियों को निरस्त कर दिया जाना चाहिए यदि वे असुरक्षित पूर्व प्रायिकता पर आधारित हैं जिससे निकृष्ट परिणाम मिलेंगे। जो प्राथमिकताएं एमडीएल के दृष्टिकोण से स्वीकार्य हैं, उन्हें तथाकथित वस्तुनिष्ठ बायेसियन प्रायिकता विश्लेषण में भी चयनित किया जाता है; यद्यपि, वहाँ प्रेरणा सामान्यतः भिन्न होती है।[11]

अन्य पद्धति

रिसेनन का सीखने का प्रथम सूचना-सैद्धांतिक दृष्टिकोण नहीं था; 1968 के प्रारंभ में वालेस और बोल्टन ने न्यूनतम संदेश लंबाई (एमएमएल) नामक संबंधित अवधारणा का संचालन किया। एमडीएल और एमएमएल के बीच अंतर निरंतर भ्रम का स्रोत है। अल्पज्ञता से, विधियाँ अधिकतर समतुल्य दिखाई देती हैं, परन्तु कुछ महत्वपूर्ण अंतर हैं, इस प्रकार से विशेषकर व्याख्या में:

  • एमएमएल पूर्ण रूप से व्यक्तिपरक बायेसियन दृष्टिकोण है: यह इस विचार से प्रारंभ होता है कि कोई व्यक्ति पूर्व वितरण के रूप में डेटा-जनक प्रक्रिया के विषय में अपनी मान्यताओं का प्रतिनिधित्व करता है। एमडीएल डेटा-जनक प्रक्रिया के विषय में धारणाओं से बचता है।
  • दोनों विधियाँ दो-भाग कोड का उपयोग करती हैं: प्रथम भाग सदैव उस सूचना का प्रतिनिधित्व करता है जिसे कोई सीखने का प्रयास कर रहा है, जैसे मॉडल वर्ग का सूचकांक (मॉडल चयन) या पैरामीटर मान (पैरामीटर अनुमान); दूसरा भाग पूर्व भाग में दी गई सूचना दिए गए डेटा का एन्कोडिंग है। विधियों के बीच अंतर यह है कि, एमडीएल साहित्य में, यह पक्षपोषित किया जाता है कि अवांछित मापदंडों को कोड के दूसरे भाग में ले जाया जाना चाहिए, जहां उन्हें तथाकथित एक-भाग कोड का उपयोग करके डेटा के साथ दर्शाया जा सकता है, जो प्रायः दो-भाग वाले कोड की तुलना में अधिक कुशल होता है। एमएमएल के मूल विवरण में, सभी पैरामीटर पूर्व भाग में एन्कोड किए गए हैं, इसलिए सभी पैरामीटर सीखे गए हैं।
  • एमएमएल संरचना के भीतर, प्रत्येक पैरामीटर निश्चित यथार्थ रूप से बताया गया है जिसके परिणामस्वरूप इष्टतम समग्र संदेश लंबाई होती है: पूर्ववर्ती उदाहरण उत्पन्न हो सकता है यदि कुछ पैरामीटर को मूल रूप से संभवतः मॉडल के लिए उपयोगी माना जाता था परन्तु बाद में समझाने में सहायता करने में असमर्थ पाया गया डेटा (ऐसे पैरामीटर को (बायेसियन) पूर्व प्रायिकता के अनुरूप कोड लंबाई दी जाएगी कि पैरामीटर अनुपयोगी पाया जाएगा)। एमडीएल संरचना में, मॉडल की तुलना में मॉडल वर्गों की तुलना करने पर अधिक ध्यान केंद्रित किया जाता है, और मॉडलों के वर्ग की तुलना करके उसी प्रश्न पर विचार करना अधिक स्वाभाविक है जिसमें स्पष्ट रूप से किसी अन्य वर्ग के विरुद्ध ऐसा पैरामीटर सम्मिलित होता है जो ऐसा नहीं करता है। अंतर ही निष्कर्ष पर पहुंचने के लिए लागू की गई मशीनरी में निहित है।

यह भी देखें

संदर्भ

  1. Rissanen, J. (September 1978). "सबसे छोटे डेटा विवरण द्वारा मॉडलिंग". Automatica. 14 (5): 465–471. doi:10.1016/0005-1098(78)90005-5.
  2. Zenil, Hector; Kiani, Narsis A.; Zea, Allan A.; Tegnér, Jesper (January 2019). "एल्गोरिथम जनरेटिव मॉडल द्वारा कारण विखंडन". Nature Machine Intelligence. 1 (1): 58–66. doi:10.1038/s42256-018-0005-0. hdl:10754/630919. S2CID 86562557.
  3. "Remodelling machine learning: An AI that thinks like a scientist". Nature Machine Intelligence: 1. 28 January 2019. doi:10.1038/s42256-019-0026-3. S2CID 189929110.
  4. Archived at Ghostarchive and the Wayback Machine: "The Limits of Understanding". YouTube.
  5. Grunwald, Peter (June 2004). "न्यूनतम विवरण लंबाई सिद्धांत का एक ट्यूटोरियल परिचय". arXiv:math/0406077. Bibcode:2004math......6077G. {{cite journal}}: Cite journal requires |journal= (help)
  6. Grünwald, Peter; Roos, Teemu (2020). "न्यूनतम विवरण लंबाई पर दोबारा गौर किया गया". International Journal of Mathematics for Industry. 11 (1). doi:10.1142/S2661335219300018. S2CID 201314867.
  7. Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). "Model Assessment and Selection". सांख्यिकीय सबक के तत्व. Springer Series in Statistics. pp. 219–259. doi:10.1007/978-0-387-84858-7_7. ISBN 978-0-387-84857-0.
  8. MacKay, David J. C.; Kay, David J. C. Mac (2003). सूचना सिद्धांत, अनुमान और शिक्षण एल्गोरिदम. Cambridge University Press. ISBN 978-0-521-64298-9.[page needed]
  9. Rissanen, Jorma. "Homepage of Jorma Rissanen". Archived from the original on 2015-12-10. Retrieved 2010-07-03.
  10. Rissanen, J. (2007). Information and Complexity in Statistical Modeling. Springer. Retrieved 2010-07-03.[page needed]
  11. Nannen, Volker (May 2010). "मॉडल चयन, कोलमोगोरोव जटिलता और न्यूनतम विवरण लंबाई (एमडीएल) का संक्षिप्त परिचय". arXiv:1005.2364. Bibcode:2010arXiv1005.2364N. {{cite journal}}: Cite journal requires |journal= (help)

अग्रिम पठन