न्यूनतम विवरण लंबाई: Difference between revisions

From Vigyanwiki
(Created page with "{{Short description|Model selection principle}} न्यूनतम विवरण लंबाई (एमडीएल) एक मॉडल चयन सिद्धा...")
 
No edit summary
Line 1: Line 1:
{{Short description|Model selection principle}}
{{Short description|Model selection principle}}
न्यूनतम विवरण लंबाई (एमडीएल) एक [[मॉडल चयन]] सिद्धांत है जहां डेटा का सबसे छोटा विवरण सबसे अच्छा मॉडल है। एमडीएल विधियां डेटा संपीड़न परिप्रेक्ष्य के माध्यम से सीखती हैं और कभी-कभी उन्हें ओकाम के रेजर के गणितीय अनुप्रयोगों के रूप में वर्णित किया जाता है। एमडीएल सिद्धांत को आगमनात्मक अनुमान और सीखने के अन्य रूपों तक बढ़ाया जा सकता है, उदाहरण के लिए अनुमान और अनुक्रमिक भविष्यवाणी, डेटा के एक भी मॉडल को स्पष्ट रूप से पहचाने बिना।
न्यूनतम विवरण लंबाई (एमडीएल) [[मॉडल चयन]] सिद्धांत है जहां डेटा का सबसे छोटा विवरण सबसे अच्छा मॉडल है। एमडीएल विधियां डेटा संपीड़न परिप्रेक्ष्य के माध्यम से सीखती हैं और कभी-कभी उन्हें ओकाम के रेजर के गणितीय अनुप्रयोगों के रूप में वर्णित किया जाता है। एमडीएल सिद्धांत को आगमनात्मक अनुमान और सीखने के अन्य रूपों तक बढ़ाया जा सकता है, उदाहरण के लिए अनुमान और अनुक्रमिक भविष्यवाणी, डेटा के भी मॉडल को स्पष्ट रूप से पहचाने बिना।


एमडीएल की उत्पत्ति ज्यादातर [[सूचना सिद्धांत]] में हुई है और इसे सांख्यिकी, सैद्धांतिक कंप्यूटर विज्ञान और मशीन लर्निंग, और अधिक संकीर्ण [[कम्प्यूटेशनल शिक्षण सिद्धांत]] के सामान्य क्षेत्रों में विकसित किया गया है।
एमडीएल की उत्पत्ति ज्यादातर [[सूचना सिद्धांत]] में हुई है और इसे सांख्यिकी, सैद्धांतिक कंप्यूटर विज्ञान और मशीन लर्निंग, और अधिक संकीर्ण [[कम्प्यूटेशनल शिक्षण सिद्धांत]] के सामान्य क्षेत्रों में विकसित किया गया है।


ऐतिहासिक रूप से, निश्चित संज्ञा वाक्यांश '''' न्यूनतम विवरण लंबाई ''सिद्धांत'' के अलग-अलग, फिर भी परस्पर संबंधित, उपयोग हैं जो ''विवरण'' के अर्थ में भिन्न हैं:
ऐतिहासिक रूप से, निश्चित संज्ञा वाक्यांश '''' न्यूनतम विवरण लंबाई ''सिद्धांत'' के अलग-अलग, फिर भी परस्पर संबंधित, उपयोग हैं जो ''विवरण'' के अर्थ में भिन्न हैं:
* [[जोर्मा रिसेनन]] के सीखने के सिद्धांत के भीतर, सूचना सिद्धांत की एक केंद्रीय अवधारणा, मॉडल सांख्यिकीय परिकल्पनाएं हैं और विवरण को सार्वभौमिक कोड के रूप में परिभाषित किया गया है।
* [[जोर्मा रिसेनन]] के सीखने के सिद्धांत के भीतर, सूचना सिद्धांत की केंद्रीय अवधारणा, मॉडल सांख्यिकीय परिकल्पनाएं हैं और विवरण को सार्वभौमिक कोड के रूप में परिभाषित किया गया है।
* रिसेनन की 1978<ref>{{cite journal|last1=Rissanen|first1=J.|date=September 1978|title=सबसे छोटे डेटा विवरण द्वारा मॉडलिंग|journal=Automatica|volume=14|issue=5|pages=465–471|doi=10.1016/0005-1098(78)90005-5}}</ref> स्वचालित रूप से संक्षिप्त विवरण प्राप्त करने का व्यावहारिक पहला प्रयास, [[बायेसियन सूचना मानदंड]] (बीआईसी) से संबंधित है।
* रिसेनन की 1978<ref>{{cite journal|last1=Rissanen|first1=J.|date=September 1978|title=सबसे छोटे डेटा विवरण द्वारा मॉडलिंग|journal=Automatica|volume=14|issue=5|pages=465–471|doi=10.1016/0005-1098(78)90005-5}}</ref> स्वचालित रूप से संक्षिप्त विवरण प्राप्त करने का व्यावहारिक पहला प्रयास, [[बायेसियन सूचना मानदंड]] (बीआईसी) से संबंधित है।
* [[एल्गोरिथम सूचना सिद्धांत]] के भीतर, जहां डेटा अनुक्रम की विवरण लंबाई उस डेटा सेट को आउटपुट करने वाले सबसे छोटे प्रोग्राम की लंबाई है। इस संदर्भ में, इसे 'आदर्शीकृत' एमडीएल सिद्धांत के रूप में भी जाना जाता है और यह सोलोमनॉफ के आगमनात्मक अनुमान के सिद्धांत से निकटता से संबंधित है, जो यह है कि डेटा सेट का सबसे अच्छा मॉडल उसके सबसे छोटे स्व-निष्कर्षण संग्रह द्वारा दर्शाया जाता है।
* [[एल्गोरिथम सूचना सिद्धांत]] के भीतर, जहां डेटा अनुक्रम की विवरण लंबाई उस डेटा सेट को आउटपुट करने वाले सबसे छोटे प्रोग्राम की लंबाई है। इस संदर्भ में, इसे 'आदर्शीकृत' एमडीएल सिद्धांत के रूप में भी जाना जाता है और यह सोलोमनॉफ के आगमनात्मक अनुमान के सिद्धांत से निकटता से संबंधित है, जो यह है कि डेटा सेट का सबसे अच्छा मॉडल उसके सबसे छोटे स्व-निष्कर्षण संग्रह द्वारा दर्शाया जाता है।
Line 11: Line 11:
==अवलोकन==
==अवलोकन==


सर्वोत्तम मॉडल के रूप में उपलब्ध डेटा की न्यूनतम लंबाई विवरण का चयन करना ओकैम के रेजर के रूप में पहचाने गए सिद्धांत का पालन करता है। कंप्यूटर प्रोग्रामिंग के आगमन से पहले, ऐसे विवरण तैयार करना वैज्ञानिक सिद्धांतकारों का बौद्धिक श्रम था। यह कंप्यूटर युग की तुलना में बहुत कम औपचारिक था। यदि दो वैज्ञानिकों के बीच सैद्धांतिक असहमति होती, तो वे अपने सिद्धांतों के बीच चयन करने के लिए शायद ही कभी औपचारिक रूप से ओकाम के रेजर का उपयोग कर पाते। उनके पास अलग-अलग डेटा सेट और संभवतः अलग-अलग वर्णनात्मक भाषाएँ होंगी। फिर भी, विज्ञान उन्नत हुआ क्योंकि ओकाम का रेजर यह तय करने में एक अनौपचारिक मार्गदर्शक था कि कौन सा मॉडल सबसे अच्छा था।
सर्वोत्तम मॉडल के रूप में उपलब्ध डेटा की न्यूनतम लंबाई विवरण का चयन करना ओकैम के रेजर के रूप में पहचाने गए सिद्धांत का पालन करता है। कंप्यूटर प्रोग्रामिंग के आगमन से पहले, ऐसे विवरण तैयार करना वैज्ञानिक सिद्धांतकारों का बौद्धिक श्रम था। यह कंप्यूटर युग की तुलना में बहुत कम औपचारिक था। यदि दो वैज्ञानिकों के बीच सैद्धांतिक असहमति होती, तो वे अपने सिद्धांतों के बीच चयन करने के लिए शायद ही कभी औपचारिक रूप से ओकाम के रेजर का उपयोग कर पाते। उनके पास अलग-अलग डेटा सेट और संभवतः अलग-अलग वर्णनात्मक भाषाएँ होंगी। फिर भी, विज्ञान उन्नत हुआ क्योंकि ओकाम का रेजर यह तय करने में अनौपचारिक मार्गदर्शक था कि कौन सा मॉडल सबसे अच्छा था।


औपचारिक भाषाओं और कंप्यूटर प्रोग्रामिंग के आगमन के साथ ओकाम के रेज़र को गणितीय रूप से परिभाषित किया गया। अवलोकनों के दिए गए सेट के मॉडल, डेटा के बिट्स के रूप में एन्कोड किए गए, कंप्यूटर प्रोग्राम के रूप में बनाए जा सकते हैं जो उस डेटा को आउटपुट करते हैं। इसके बाद ओकाम का रेज़र औपचारिक रूप से सबसे छोटे प्रोग्राम का चयन कर सकता है, जिसे इस एल्गोरिथम जानकारी के बिट्स में मापा जाता है, सर्वोत्तम मॉडल के रूप में।
औपचारिक भाषाओं और कंप्यूटर प्रोग्रामिंग के आगमन के साथ ओकाम के रेज़र को गणितीय रूप से परिभाषित किया गया। अवलोकनों के दिए गए सेट के मॉडल, डेटा के बिट्स के रूप में एन्कोड किए गए, कंप्यूटर प्रोग्राम के रूप में बनाए जा सकते हैं जो उस डेटा को आउटपुट करते हैं। इसके बाद ओकाम का रेज़र औपचारिक रूप से सबसे छोटे प्रोग्राम का चयन कर सकता है, जिसे इस एल्गोरिथम जानकारी के बिट्स में मापा जाता है, सर्वोत्तम मॉडल के रूप में।


भ्रम से बचने के लिए, ध्यान दें कि एमडीएल सिद्धांत में ऐसा कुछ भी नहीं है जो यह दर्शाता हो कि एक मशीन ने मॉडल को मूर्त रूप देते हुए प्रोग्राम तैयार किया है। यह पूरी तरह से इंसानों का उत्पाद हो सकता है। एमडीएल सिद्धांत इस पर ध्यान दिए बिना लागू होता है कि कंप्यूटर पर चलाया जाने वाला विवरण मनुष्यों, मशीनों या उनके किसी संयोजन का उत्पाद है या नहीं। एमडीएल सिद्धांत के लिए केवल यह आवश्यक है कि सबसे छोटा विवरण, निष्पादित होने पर, त्रुटि के बिना मूल डेटा सेट तैयार करे।
भ्रम से बचने के लिए, ध्यान दें कि एमडीएल सिद्धांत में ऐसा कुछ भी नहीं है जो यह दर्शाता हो कि मशीन ने मॉडल को मूर्त रूप देते हुए प्रोग्राम तैयार किया है। यह पूरी तरह से इंसानों का उत्पाद हो सकता है। एमडीएल सिद्धांत इस पर ध्यान दिए बिना लागू होता है कि कंप्यूटर पर चलाया जाने वाला विवरण मनुष्यों, मशीनों या उनके किसी संयोजन का उत्पाद है या नहीं। एमडीएल सिद्धांत के लिए केवल यह आवश्यक है कि सबसे छोटा विवरण, निष्पादित होने पर, त्रुटि के बिना मूल डेटा सेट तैयार करे।


===दो-भाग कोड===
===दो-भाग कोड===
Line 23: Line 23:
==मशीन लर्निंग में एमडीएल==
==मशीन लर्निंग में एमडीएल==


एमडीएल मशीन लर्निंग में लागू होता है जब एल्गोरिदम (मशीनें) विवरण उत्पन्न करते हैं। सीखना तब होता है जब एक एल्गोरिदम समान डेटा सेट का एक छोटा विवरण तैयार करता है।
एमडीएल मशीन लर्निंग में लागू होता है जब एल्गोरिदम (मशीनें) विवरण उत्पन्न करते हैं। सीखना तब होता है जब एल्गोरिदम समान डेटा सेट का छोटा विवरण तैयार करता है।


हालाँकि, डेटा सेट की सैद्धांतिक न्यूनतम विवरण लंबाई, जिसे इसकी [[कोलमोगोरोव जटिलता]] कहा जाता है, की गणना नहीं की जा सकती है। कहने का तात्पर्य यह है कि, भले ही यादृच्छिक संयोग से एक एल्गोरिथ्म डेटा सेट को आउटपुट करने वाले सभी में से सबसे छोटा प्रोग्राम उत्पन्न करता है, एक स्वचालित प्रमेय साबित नहीं कर सकता है कि ऐसा कोई छोटा प्रोग्राम नहीं है। फिर भी, डेटासेट को आउटपुट करने वाले दो प्रोग्राम दिए गए हैं, एमडीएल सिद्धांत सर्वोत्तम मॉडल को मूर्त रूप देने के लिए दोनों में से छोटे को चुनता है।
हालाँकि, डेटा सेट की सैद्धांतिक न्यूनतम विवरण लंबाई, जिसे इसकी [[कोलमोगोरोव जटिलता]] कहा जाता है, की गणना नहीं की जा सकती है। कहने का तात्पर्य यह है कि, भले ही यादृच्छिक संयोग से एल्गोरिथ्म डेटा सेट को आउटपुट करने वाले सभी में से सबसे छोटा प्रोग्राम उत्पन्न करता है, स्वचालित प्रमेय साबित नहीं कर सकता है कि ऐसा कोई छोटा प्रोग्राम नहीं है। फिर भी, डेटासेट को आउटपुट करने वाले दो प्रोग्राम दिए गए हैं, एमडीएल सिद्धांत सर्वोत्तम मॉडल को मूर्त रूप देने के लिए दोनों में से छोटे को चुनता है।


==एल्गोरिदमिक एमडीएल लर्निंग पर हालिया काम==
==एल्गोरिदमिक एमडीएल लर्निंग पर हालिया काम==
Line 37: Line 37:
==सांख्यिकीय एमडीएल सीखना==
==सांख्यिकीय एमडीएल सीखना==


डेटा के किसी भी सेट को एक परिमित (जैसे, बाइनरी अंक प्रणाली) [[वर्णमाला]] से [[प्रतीक]]ों की एक स्ट्रिंग द्वारा दर्शाया जा सकता है।
डेटा के किसी भी सेट को परिमित (जैसे, बाइनरी अंक प्रणाली) [[वर्णमाला]] से [[प्रतीक]]ों की स्ट्रिंग द्वारा दर्शाया जा सकता है।


<ब्लॉककोट>
<ब्लॉककोट>
Line 43: Line 43:
</ब्लॉककोट>
</ब्लॉककोट>


इसके आधार पर, 1978 में, जोर्मा रिसेनन ने एल्गोरिथम जानकारी के बजाय [[एन्ट्रॉपी (सूचना सिद्धांत)]] का उपयोग करके एक एमडीएल लर्निंग एल्गोरिदम प्रकाशित किया। पिछले 40 वर्षों में यह सांख्यिकीय और मशीन सीखने की प्रक्रियाओं के एक समृद्ध सिद्धांत के रूप में विकसित हुआ है, जो बायेसियन मॉडल चयन और औसत, लासो और रिज जैसे दंड के तरीकों और इसी तरह से जुड़ा हुआ है - ग्रुनवाल्ड और रोस (2020)<ref>{{Cite journal|last1=Grünwald|first1=Peter|last2=Roos|first2=Teemu|date=2020|title=न्यूनतम विवरण लंबाई पर दोबारा गौर किया गया|journal=International Journal of Mathematics for Industry|volume=11|issue=1|doi=10.1142/S2661335219300018|s2cid=201314867|doi-access=free}}</ref> सभी आधुनिक विकासों सहित एक परिचय दीजिए। रिसेनन ने इस विचार के साथ शुरुआत की: सभी सांख्यिकीय शिक्षा डेटा में नियमितता खोजने के बारे में है, और डेटा में नियमितता का वर्णन करने के लिए सबसे अच्छी परिकल्पना भी वह है जो डेटा को सांख्यिकीय रूप से सबसे अधिक संपीड़ित करने में सक्षम है। अन्य सांख्यिकीय विधियों की तरह, इसका उपयोग कुछ डेटा का उपयोग करके किसी मॉडल के मापदंडों को सीखने के लिए किया जा सकता है। हालाँकि, आमतौर पर मानक सांख्यिकीय पद्धतियाँ मानती हैं कि किसी मॉडल का सामान्य रूप निश्चित है। एमडीएल की मुख्य ताकत यह है कि इसका उपयोग किसी मॉडल के सामान्य रूप और उसके मापदंडों का चयन करने के लिए भी किया जा सकता है। रुचि की मात्रा (कभी-कभी सिर्फ एक मॉडल, कभी-कभी सिर्फ पैरामीटर, कभी-कभी एक ही समय में दोनों) को परिकल्पना कहा जाता है। मूल विचार तो [[दोषरहित संपीड़न]]|(दोषरहित) दो-चरण कोड पर विचार करना है जो डेटा को एन्कोड करता है <math>D</math> लंबाई के साथ <math> {L(D)} </math> किसी परिकल्पना को पहले कूटबद्ध करके <math>H</math> सुविचारित परिकल्पनाओं के सेट में <math>{\cal H}</math> और फिर कोडिंग <math>D</math> की मदद से <math>H</math>; सबसे सरल संदर्भ में इसका मतलब केवल पूर्वानुमानों से डेटा के विचलन को एन्कोड करना है <math>H</math>:
इसके आधार पर, 1978 में, जोर्मा रिसेनन ने एल्गोरिथम जानकारी के बजाय [[एन्ट्रॉपी (सूचना सिद्धांत)]] का उपयोग करके एमडीएल लर्निंग एल्गोरिदम प्रकाशित किया। पिछले 40 वर्षों में यह सांख्यिकीय और मशीन सीखने की प्रक्रियाओं के समृद्ध सिद्धांत के रूप में विकसित हुआ है, जो बायेसियन मॉडल चयन और औसत, लासो और रिज जैसे दंड के तरीकों और इसी तरह से जुड़ा हुआ है - ग्रुनवाल्ड और रोस (2020)<ref>{{Cite journal|last1=Grünwald|first1=Peter|last2=Roos|first2=Teemu|date=2020|title=न्यूनतम विवरण लंबाई पर दोबारा गौर किया गया|journal=International Journal of Mathematics for Industry|volume=11|issue=1|doi=10.1142/S2661335219300018|s2cid=201314867|doi-access=free}}</ref> सभी आधुनिक विकासों सहित परिचय दीजिए। रिसेनन ने इस विचार के साथ शुरुआत की: सभी सांख्यिकीय शिक्षा डेटा में नियमितता खोजने के बारे में है, और डेटा में नियमितता का वर्णन करने के लिए सबसे अच्छी परिकल्पना भी वह है जो डेटा को सांख्यिकीय रूप से सबसे अधिक संपीड़ित करने में सक्षम है। अन्य सांख्यिकीय विधियों की तरह, इसका उपयोग कुछ डेटा का उपयोग करके किसी मॉडल के मापदंडों को सीखने के लिए किया जा सकता है। हालाँकि, आमतौर पर मानक सांख्यिकीय पद्धतियाँ मानती हैं कि किसी मॉडल का सामान्य रूप निश्चित है। एमडीएल की मुख्य ताकत यह है कि इसका उपयोग किसी मॉडल के सामान्य रूप और उसके मापदंडों का चयन करने के लिए भी किया जा सकता है। रुचि की मात्रा (कभी-कभी सिर्फ मॉडल, कभी-कभी सिर्फ पैरामीटर, कभी-कभी ही समय में दोनों) को परिकल्पना कहा जाता है। मूल विचार तो [[दोषरहित संपीड़न]]|(दोषरहित) दो-चरण कोड पर विचार करना है जो डेटा को एन्कोड करता है <math>D</math> लंबाई के साथ <math> {L(D)} </math> किसी परिकल्पना को पहले कूटबद्ध करके <math>H</math> सुविचारित परिकल्पनाओं के सेट में <math>{\cal H}</math> और फिर कोडिंग <math>D</math> की मदद से <math>H</math>; सबसे सरल संदर्भ में इसका मतलब केवल पूर्वानुमानों से डेटा के विचलन को एन्कोड करना है <math>H</math>:<math display="block"> {L(D)} = \min_{H \in {\cal H}} \ (\ L(H) + L(D|H) \ ) \ </math>


<math display="block"> {L(D)} = \min_{H \in {\cal H}} \ (\ L(H) + L(D|H) \ ) \ </math>
<math>H</math> h> इस न्यूनतम को प्राप्त करना डेटा की सर्वोत्तम व्याख्या के रूप में देखा जाता है <math>D</math>. सरल उदाहरण के रूप में, प्रतिगमन समस्या लें: डेटा <math>D</math> इसमें बिंदुओं का क्रम शामिल हो सकता है <math>D = (x_1,y_1), \ldots, (x_n,y_n)</math>, सेट <math> {\cal H} </math> से सभी बहुपदों का समुच्चय हो सकता है <math>X</math> को <math>Y</math>. बहुपद का वर्णन करने के लिए <math>H</math> डिग्री का (कहें) <math>k</math>, किसी को पहले कुछ परिशुद्धता के लिए मापदंडों को अलग करना होगा; फिर किसी को इस परिशुद्धता (एक प्राकृतिक संख्या) का वर्णन करना होगा; इसके बाद, किसी को डिग्री का वर्णन करना होगा <math>k</math> (एक अन्य प्राकृतिक संख्या), और अंतिम चरण में, किसी को वर्णन करना होगा <math>k+1</math> पैरामीटर; कुल लंबाई होगी <math>L(H)</math>. फिर कोई इसमें बिंदुओं का वर्णन करेगा <math>D</math> x-मानों के लिए कुछ निश्चित कोड का उपयोग करना और फिर इसके लिए कोड का उपयोग करना <math>n</math> विचलन <math>y_i - H(x_i)</math>.


<math>H</math> h> इस न्यूनतम को प्राप्त करना डेटा की सर्वोत्तम व्याख्या के रूप में देखा जाता है <math>D</math>. एक सरल उदाहरण के रूप में, एक प्रतिगमन समस्या लें: डेटा <math>D</math> इसमें बिंदुओं का एक क्रम शामिल हो सकता है <math>D = (x_1,y_1), \ldots, (x_n,y_n)</math>, सेट <math> {\cal H} </math> से सभी बहुपदों का समुच्चय हो सकता है <math>X</math> को <math>Y</math>. एक बहुपद का वर्णन करने के लिए <math>H</math> डिग्री का (कहें) <math>k</math>, किसी को पहले कुछ परिशुद्धता के लिए मापदंडों को अलग करना होगा; फिर किसी को इस परिशुद्धता (एक प्राकृतिक संख्या) का वर्णन करना होगा; इसके बाद, किसी को डिग्री का वर्णन करना होगा <math>k</math> (एक अन्य प्राकृतिक संख्या), और अंतिम चरण में, किसी को वर्णन करना होगा <math>k+1</math> पैरामीटर; कुल लंबाई होगी <math>L(H)</math>. फिर कोई इसमें बिंदुओं का वर्णन करेगा <math>D</math> x-मानों के लिए कुछ निश्चित कोड का उपयोग करना और फिर इसके लिए एक कोड का उपयोग करना <math>n</math> विचलन <math>y_i - H(x_i)</math>.
व्यवहार में, व्यक्ति अक्सर (लेकिन हमेशा नहीं) संभाव्य मॉडल का उपयोग करता है। उदाहरण के लिए, प्रत्येक बहुपद को संबद्ध करता है <math>H</math> दिए गए को व्यक्त करते हुए संगत सशर्त वितरण के साथ <math>X</math>, <math>Y</math> सामान्यतः माध्य के साथ वितरित किया जाता है <math>H(X)</math> और कुछ भिन्नता <math>\sigma^2</math> जिसे या तो ठीक किया जा सकता है या मुफ़्त पैरामीटर के रूप में जोड़ा जा सकता है। फिर परिकल्पनाओं का सेट <math>{\cal H}</math> रैखिक की धारणा को कम करता है{{Clarify|date=May 2022|reason=why linear?}} नमूना, <math>Y=H(X)+\epsilon</math> , साथ <math>H</math> बहुपद.


व्यवहार में, व्यक्ति अक्सर (लेकिन हमेशा नहीं) संभाव्य मॉडल का उपयोग करता है। उदाहरण के लिए, प्रत्येक बहुपद को एक संबद्ध करता है <math>H</math> दिए गए को व्यक्त करते हुए संगत सशर्त वितरण के साथ <math>X</math>, <math>Y</math> सामान्यतः माध्य के साथ वितरित किया जाता है <math>H(X)</math> और कुछ भिन्नता <math>\sigma^2</math> जिसे या तो ठीक किया जा सकता है या मुफ़्त पैरामीटर के रूप में जोड़ा जा सकता है। फिर परिकल्पनाओं का सेट <math>{\cal H}</math> एक रैखिक की धारणा को कम करता है{{Clarify|date=May 2022|reason=why linear?}} नमूना, <math>Y=H(X)+\epsilon</math> , साथ <math>H</math> एक बहुपद.
इसके अलावा, किसी को अक्सर विशिष्ट पैरामीटर मानों में सीधे तौर पर दिलचस्पी नहीं होती है, लेकिन उदाहरण के लिए, बहुपद की डिग्री में। उस स्थिति में, कोई सेट हो जाता है <math>{\cal H}</math> होना <math>{\cal H} = \{ {\cal H}_0, {\cal H}_1, \ldots \}</math>जहां प्रत्येक <math>{\cal H}_j</math> इस परिकल्पना का प्रतिनिधित्व करता है कि डेटा को जे-वें डिग्री बहुपद के रूप में सबसे अच्छा वर्णित किया गया है। फिर डेटा को कोड करता है <math>D</math> परिकल्पना दी गई <math>{\cal H}_j</math> एक-भाग वाले कोड का उपयोग इस तरह से डिज़ाइन किया गया है कि, जब भी कोई परिकल्पना हो <math>H \in {\cal H}_j</math> कोडलेंथ, डेटा को अच्छी तरह से फिट करता है <math>L(D|H)</math> छोटा है। ऐसे कोड के डिज़ाइन को यूनिवर्सल कोड (डेटा कम्प्रेशन) कहा जाता है। विभिन्न प्रकार के सार्वभौमिक कोड हैं जिनका उपयोग कोई भी कर सकता है, जो अक्सर लंबे डेटा अनुक्रमों के लिए समान लंबाई देते हैं लेकिन छोटे डेटा अनुक्रमों के लिए भिन्न होते हैं। 'सर्वोत्तम' (इस अर्थ में कि इसमें न्यूनतम अधिकतम इष्टतमता संपत्ति है) सामान्यीकृत अधिकतम संभावना (एनएमएल) या श्टार्कोव कोड हैं। कोड का काफी उपयोगी वर्ग बायेसियन सीमांत संभावना कोड है। वितरण के घातांकीय परिवारों के लिए, जब जेफ़्रीज़ पूर्व का उपयोग किया जाता है और पैरामीटर स्थान उपयुक्त रूप से प्रतिबंधित होता है, तो ये असममित रूप से एनएमएल कोड के साथ मेल खाते हैं; यह एमडीएल सिद्धांत को वस्तुनिष्ठ बेयस मॉडल चयन के निकट संपर्क में लाता है, जिसमें व्यक्ति कभी-कभी जेफ़रीज़ के पूर्व को भी अपनाता है, भले ही अलग-अलग कारणों से। मॉडल चयन के लिए एमडीएल दृष्टिकोण औपचारिक रूप से [[बायेसियन सूचना मानदंड]] दृष्टिकोण के समान चयन मानदंड देता है<ref>{{cite book |doi=10.1007/978-0-387-84858-7_7 |chapter=Model Assessment and Selection |title=सांख्यिकीय सबक के तत्व|series=Springer Series in Statistics |year=2009 |last1=Hastie |first1=Trevor |last2=Tibshirani |first2=Robert |last3=Friedman |first3=Jerome |pages=219–259 |isbn=978-0-387-84857-0 }}</ref> बड़ी संख्या में नमूनों के लिए.
 
इसके अलावा, किसी को अक्सर विशिष्ट पैरामीटर मानों में सीधे तौर पर दिलचस्पी नहीं होती है, लेकिन उदाहरण के लिए, बहुपद की डिग्री में। उस स्थिति में, कोई सेट हो जाता है <math>{\cal H}</math> होना <math>{\cal H} = \{ {\cal H}_0, {\cal H}_1, \ldots \}</math>जहां प्रत्येक <math>{\cal H}_j</math> इस परिकल्पना का प्रतिनिधित्व करता है कि डेटा को जे-वें डिग्री बहुपद के रूप में सबसे अच्छा वर्णित किया गया है। फिर एक डेटा को कोड करता है <math>D</math> परिकल्पना दी गई <math>{\cal H}_j</math> एक-भाग वाले कोड का उपयोग इस तरह से डिज़ाइन किया गया है कि, जब भी कोई परिकल्पना हो <math>H \in {\cal H}_j</math> कोडलेंथ, डेटा को अच्छी तरह से फिट करता है <math>L(D|H)</math> छोटा है। ऐसे कोड के डिज़ाइन को यूनिवर्सल कोड (डेटा कम्प्रेशन) कहा जाता है। विभिन्न प्रकार के सार्वभौमिक कोड हैं जिनका उपयोग कोई भी कर सकता है, जो अक्सर लंबे डेटा अनुक्रमों के लिए समान लंबाई देते हैं लेकिन छोटे डेटा अनुक्रमों के लिए भिन्न होते हैं। 'सर्वोत्तम' (इस अर्थ में कि इसमें न्यूनतम अधिकतम इष्टतमता संपत्ति है) सामान्यीकृत अधिकतम संभावना (एनएमएल) या श्टार्कोव कोड हैं। कोड का एक काफी उपयोगी वर्ग बायेसियन सीमांत संभावना कोड है। वितरण के घातांकीय परिवारों के लिए, जब जेफ़्रीज़ पूर्व का उपयोग किया जाता है और पैरामीटर स्थान उपयुक्त रूप से प्रतिबंधित होता है, तो ये असममित रूप से एनएमएल कोड के साथ मेल खाते हैं; यह एमडीएल सिद्धांत को वस्तुनिष्ठ बेयस मॉडल चयन के निकट संपर्क में लाता है, जिसमें व्यक्ति कभी-कभी जेफ़रीज़ के पूर्व को भी अपनाता है, भले ही अलग-अलग कारणों से। मॉडल चयन के लिए एमडीएल दृष्टिकोण औपचारिक रूप से [[बायेसियन सूचना मानदंड]] दृष्टिकोण के समान एक चयन मानदंड देता है<ref>{{cite book |doi=10.1007/978-0-387-84858-7_7 |chapter=Model Assessment and Selection |title=सांख्यिकीय सबक के तत्व|series=Springer Series in Statistics |year=2009 |last1=Hastie |first1=Trevor |last2=Tibshirani |first2=Robert |last3=Friedman |first3=Jerome |pages=219–259 |isbn=978-0-387-84857-0 }}</ref> बड़ी संख्या में नमूनों के लिए.


===सांख्यिकीय एमडीएल लर्निंग का उदाहरण===
===सांख्यिकीय एमडीएल लर्निंग का उदाहरण===
{{Multiple issues|section=yes|
{{confusing section|date=March 2016}}
{{more citations needed section|date=March 2016}}
}}
एक सिक्के को 1000 बार उछाला जाता है और चित और पट की संख्या दर्ज की जाती है। दो मॉडल वर्गों पर विचार करें:
एक सिक्के को 1000 बार उछाला जाता है और चित और पट की संख्या दर्ज की जाती है। दो मॉडल वर्गों पर विचार करें:
*पहला एक कोड है जो चित के लिए 0 या पट के लिए 1 के साथ परिणामों को दर्शाता है। यह कोड इस परिकल्पना का प्रतिनिधित्व करता है कि सिक्का उचित है। इस कोड के अनुसार कोड की लंबाई हमेशा ठीक 1000 बिट्स होती है।
*पहला कोड है जो चित के लिए 0 या पट के लिए 1 के साथ परिणामों को दर्शाता है। यह कोड इस परिकल्पना का प्रतिनिधित्व करता है कि सिक्का उचित है। इस कोड के अनुसार कोड की लंबाई हमेशा ठीक 1000 बिट्स होती है।
*दूसरे में वे सभी कोड शामिल हैं जो कुछ विशिष्ट पूर्वाग्रह वाले सिक्के के लिए कुशल हैं, जो इस परिकल्पना का प्रतिनिधित्व करते हैं कि सिक्का उचित नहीं है। मान लीजिए कि हम 510 चित और 490 पट देखते हैं। फिर दूसरे मॉडल वर्ग में सर्वोत्तम कोड के अनुसार कोड की लंबाई 1000 बिट्स से कम है।
*दूसरे में वे सभी कोड शामिल हैं जो कुछ विशिष्ट पूर्वाग्रह वाले सिक्के के लिए कुशल हैं, जो इस परिकल्पना का प्रतिनिधित्व करते हैं कि सिक्का उचित नहीं है। मान लीजिए कि हम 510 चित और 490 पट देखते हैं। फिर दूसरे मॉडल वर्ग में सर्वोत्तम कोड के अनुसार कोड की लंबाई 1000 बिट्स से कम है।


इस कारण से, एक अनुभवहीन सांख्यिकीय पद्धति डेटा के लिए बेहतर स्पष्टीकरण के रूप में दूसरे मॉडल को चुन सकती है। हालाँकि, एक एमडीएल दृष्टिकोण केवल सर्वश्रेष्ठ का उपयोग करने के बजाय, परिकल्पना के आधार पर एकल कोड का निर्माण करेगा। यह कोड सामान्यीकृत अधिकतम संभावना कोड या बायेसियन कोड हो सकता है। यदि ऐसे कोड का उपयोग किया जाता है, तो दूसरे मॉडल वर्ग के आधार पर कुल कोड लंबाई 1000 बिट्स से बड़ी होगी। इसलिए, एमडीएल दृष्टिकोण का पालन करते समय निष्कर्ष अनिवार्य रूप से है कि पक्षपाती सिक्के की परिकल्पना का समर्थन करने के लिए पर्याप्त सबूत नहीं हैं, भले ही दूसरे मॉडल वर्ग का सबसे अच्छा तत्व डेटा के लिए बेहतर फिट प्रदान करता है।
इस कारण से, अनुभवहीन सांख्यिकीय पद्धति डेटा के लिए बेहतर स्पष्टीकरण के रूप में दूसरे मॉडल को चुन सकती है। हालाँकि, एमडीएल दृष्टिकोण केवल सर्वश्रेष्ठ का उपयोग करने के बजाय, परिकल्पना के आधार पर एकल कोड का निर्माण करेगा। यह कोड सामान्यीकृत अधिकतम संभावना कोड या बायेसियन कोड हो सकता है। यदि ऐसे कोड का उपयोग किया जाता है, तो दूसरे मॉडल वर्ग के आधार पर कुल कोड लंबाई 1000 बिट्स से बड़ी होगी। इसलिए, एमडीएल दृष्टिकोण का पालन करते समय निष्कर्ष अनिवार्य रूप से है कि पक्षपाती सिक्के की परिकल्पना का समर्थन करने के लिए पर्याप्त सबूत नहीं हैं, भले ही दूसरे मॉडल वर्ग का सबसे अच्छा तत्व डेटा के लिए बेहतर फिट प्रदान करता है।


===सांख्यिकीय एमडीएल संकेतन===
===सांख्यिकीय एमडीएल संकेतन===
एमडीएल सिद्धांत का केंद्र कोड लंबाई [[फ़ंक्शन (गणित)]] और संभाव्यता वितरण के बीच एक-से-एक पत्राचार है (यह क्राफ्ट-मैकमिलन प्रमेय | क्राफ्ट-मैकमिलन असमानता से अनुसरण करता है)। किसी भी संभाव्यता वितरण के लिए <math>P</math>, एक कोड बनाना संभव है <math>C</math> ऐसी कि लंबाई (बिट्स में)। <math>C(x)</math> के बराबर है <math>-\log_2 P(x)</math>; यह कोड अपेक्षित कोड लंबाई को कम करता है। इसके विपरीत, एक कोड दिया गया है <math>C</math>, कोई संभाव्यता वितरण का निर्माण कर सकता है <math>P</math> ऐसा कि वही कायम है। (राउंडिंग मुद्दों को यहां नजरअंदाज कर दिया गया है।) दूसरे शब्दों में, एक कुशल कोड की खोज एक अच्छे संभाव्यता वितरण की खोज के बराबर है।
एमडीएल सिद्धांत का केंद्र कोड लंबाई [[फ़ंक्शन (गणित)]] और संभाव्यता वितरण के बीच एक-से-एक पत्राचार है (यह क्राफ्ट-मैकमिलन प्रमेय | क्राफ्ट-मैकमिलन असमानता से अनुसरण करता है)। किसी भी संभाव्यता वितरण के लिए <math>P</math>, कोड बनाना संभव है <math>C</math> ऐसी कि लंबाई (बिट्स में)। <math>C(x)</math> के बराबर है <math>-\log_2 P(x)</math>; यह कोड अपेक्षित कोड लंबाई को कम करता है। इसके विपरीत, कोड दिया गया है <math>C</math>, कोई संभाव्यता वितरण का निर्माण कर सकता है <math>P</math> ऐसा कि वही कायम है। (राउंडिंग मुद्दों को यहां नजरअंदाज कर दिया गया है।) दूसरे शब्दों में, कुशल कोड की खोज अच्छे संभाव्यता वितरण की खोज के बराबर है।


===सांख्यिकीय एमडीएल लर्निंग की सीमाएं===
===सांख्यिकीय एमडीएल लर्निंग की सीमाएं===
Line 72: Line 66:
===संबंधित अवधारणाएँ===
===संबंधित अवधारणाएँ===
सांख्यिकीय एमडीएल सीखना ऊपर उल्लिखित कोड और संभाव्यता वितरण के बीच पत्राचार के माध्यम से संभाव्यता सिद्धांत और आंकड़ों से बहुत मजबूती से जुड़ा हुआ है। इसने कुछ शोधकर्ताओं को एमडीएल को [[बायेसियन अनुमान]] के समकक्ष देखने के लिए प्रेरित किया है: एमडीएल में मॉडल और डेटा की कोड लंबाई क्रमशः बायेसियन ढांचे में [[पूर्व संभावना]] और [[सीमांत संभावना]] के अनुरूप है।<ref name="mackay">{{cite book |last1=MacKay |first1=David J. C. |last2=Kay |first2=David J. C. Mac |title=सूचना सिद्धांत, अनुमान और शिक्षण एल्गोरिदम|date=2003 |publisher=Cambridge University Press |isbn=978-0-521-64298-9 }}{{page needed|date=May 2020}}</ref>
सांख्यिकीय एमडीएल सीखना ऊपर उल्लिखित कोड और संभाव्यता वितरण के बीच पत्राचार के माध्यम से संभाव्यता सिद्धांत और आंकड़ों से बहुत मजबूती से जुड़ा हुआ है। इसने कुछ शोधकर्ताओं को एमडीएल को [[बायेसियन अनुमान]] के समकक्ष देखने के लिए प्रेरित किया है: एमडीएल में मॉडल और डेटा की कोड लंबाई क्रमशः बायेसियन ढांचे में [[पूर्व संभावना]] और [[सीमांत संभावना]] के अनुरूप है।<ref name="mackay">{{cite book |last1=MacKay |first1=David J. C. |last2=Kay |first2=David J. C. Mac |title=सूचना सिद्धांत, अनुमान और शिक्षण एल्गोरिदम|date=2003 |publisher=Cambridge University Press |isbn=978-0-521-64298-9 }}{{page needed|date=May 2020}}</ref>
जबकि बायेसियन मशीनरी अक्सर कुशल एमडीएल कोड बनाने में उपयोगी होती है, एमडीएल ढांचा अन्य कोड को भी समायोजित करता है जो बायेसियन नहीं हैं। एक उदाहरण श्टार्कोव सामान्यीकृत अधिकतम संभावना कोड है, जो वर्तमान एमडीएल सिद्धांत में एक केंद्रीय भूमिका निभाता है, लेकिन बायेसियन अनुमान में इसका कोई समकक्ष नहीं है। इसके अलावा, रिसेनन इस बात पर जोर देते हैं कि हमें वास्तविक [[संभाव्य मॉडल]] के बारे में कोई धारणा नहीं बनानी चाहिए। .<ref name="cwi">{{cite news
जबकि बायेसियन मशीनरी अक्सर कुशल एमडीएल कोड बनाने में उपयोगी होती है, एमडीएल ढांचा अन्य कोड को भी समायोजित करता है जो बायेसियन नहीं हैं। उदाहरण श्टार्कोव सामान्यीकृत अधिकतम संभावना कोड है, जो वर्तमान एमडीएल सिद्धांत में केंद्रीय भूमिका निभाता है, लेकिन बायेसियन अनुमान में इसका कोई समकक्ष नहीं है। इसके अलावा, रिसेनन इस बात पर जोर देते हैं कि हमें वास्तविक [[संभाव्य मॉडल]] के बारे में कोई धारणा नहीं बनानी चाहिए। .<ref name="cwi">{{cite news
|url=http://www.mdl-research.net/jorma.rissanen/
|url=http://www.mdl-research.net/jorma.rissanen/
|title=Homepage of Jorma Rissanen
|title=Homepage of Jorma Rissanen
Line 83: Line 77:
|archive-date=2015-12-10
|archive-date=2015-12-10
|url-status=dead
|url-status=dead
}}</ref>{{self-published inline|date=May 2020}}<ref name="springer">{{cite book
}}</ref><ref name="springer">{{cite book
|url=https://www.springer.com/computer/foundations/book/978-0-387-36610-4
|url=https://www.springer.com/computer/foundations/book/978-0-387-36610-4
|title=Information and Complexity in Statistical Modeling
|title=Information and Complexity in Statistical Modeling
Line 93: Line 87:


एमडीएल दर्शन के अनुसार, बायेसियन तरीकों को खारिज कर दिया जाना चाहिए यदि वे असुरक्षित पूर्व संभावना पर आधारित हैं जिससे खराब परिणाम मिलेंगे। जो प्राथमिकताएं एमडीएल के दृष्टिकोण से स्वीकार्य हैं, उन्हें तथाकथित ऑब्जेक्टिव बायेसियन संभाव्यता विश्लेषण में भी पसंद किया जाता है; हालाँकि, वहाँ प्रेरणा आमतौर पर भिन्न होती है।<ref name="volker">{{cite journal |last1=Nannen |first1=Volker |title=मॉडल चयन, कोलमोगोरोव जटिलता और न्यूनतम विवरण लंबाई (एमडीएल) का संक्षिप्त परिचय|date=May 2010 |arxiv=1005.2364 |bibcode=2010arXiv1005.2364N }}</ref>
एमडीएल दर्शन के अनुसार, बायेसियन तरीकों को खारिज कर दिया जाना चाहिए यदि वे असुरक्षित पूर्व संभावना पर आधारित हैं जिससे खराब परिणाम मिलेंगे। जो प्राथमिकताएं एमडीएल के दृष्टिकोण से स्वीकार्य हैं, उन्हें तथाकथित ऑब्जेक्टिव बायेसियन संभाव्यता विश्लेषण में भी पसंद किया जाता है; हालाँकि, वहाँ प्रेरणा आमतौर पर भिन्न होती है।<ref name="volker">{{cite journal |last1=Nannen |first1=Volker |title=मॉडल चयन, कोलमोगोरोव जटिलता और न्यूनतम विवरण लंबाई (एमडीएल) का संक्षिप्त परिचय|date=May 2010 |arxiv=1005.2364 |bibcode=2010arXiv1005.2364N }}</ref>
==अन्य सिस्टम==
==अन्य सिस्टम==
रिसेनन सीखने का पहला सूचना सिद्धांत नहीं था| 1968 की शुरुआत में वालेस और बोल्टन ने [[न्यूनतम संदेश लंबाई]] (एमएमएल) नामक एक संबंधित अवधारणा का बीड़ा उठाया। एमडीएल और एमएमएल के बीच अंतर निरंतर भ्रम का एक स्रोत है। सतही तौर पर, विधियाँ अधिकतर समतुल्य दिखाई देती हैं, लेकिन कुछ महत्वपूर्ण अंतर हैं, विशेषकर व्याख्या में:
रिसेनन सीखने का पहला सूचना सिद्धांत नहीं था| 1968 की शुरुआत में वालेस और बोल्टन ने [[न्यूनतम संदेश लंबाई]] (एमएमएल) नामक संबंधित अवधारणा का बीड़ा उठाया। एमडीएल और एमएमएल के बीच अंतर निरंतर भ्रम का स्रोत है। सतही तौर पर, विधियाँ अधिकतर समतुल्य दिखाई देती हैं, लेकिन कुछ महत्वपूर्ण अंतर हैं, विशेषकर व्याख्या में:
* एमएमएल पूरी तरह से व्यक्तिपरक बायेसियन दृष्टिकोण है: यह इस विचार से शुरू होता है कि कोई व्यक्ति पूर्व वितरण के रूप में डेटा-जनरेटिंग प्रक्रिया के बारे में अपनी मान्यताओं का प्रतिनिधित्व करता है। एमडीएल डेटा-जनरेटिंग प्रक्रिया के बारे में धारणाओं से बचता है।
* एमएमएल पूरी तरह से व्यक्तिपरक बायेसियन दृष्टिकोण है: यह इस विचार से शुरू होता है कि कोई व्यक्ति पूर्व वितरण के रूप में डेटा-जनरेटिंग प्रक्रिया के बारे में अपनी मान्यताओं का प्रतिनिधित्व करता है। एमडीएल डेटा-जनरेटिंग प्रक्रिया के बारे में धारणाओं से बचता है।
* दोनों विधियाँ दो-भाग कोड का उपयोग करती हैं: पहला भाग हमेशा उस जानकारी का प्रतिनिधित्व करता है जिसे कोई सीखने की कोशिश कर रहा है, जैसे मॉडल वर्ग का सूचकांक (मॉडल चयन) या पैरामीटर मान ([[पैरामीटर अनुमान]]); दूसरा भाग पहले भाग में दी गई जानकारी दिए गए डेटा का एन्कोडिंग है। विधियों के बीच अंतर यह है कि, एमडीएल साहित्य में, यह वकालत की जाती है कि अवांछित मापदंडों को कोड के दूसरे भाग में ले जाया जाना चाहिए, जहां उन्हें तथाकथित [[एक-भाग कोड]] का उपयोग करके डेटा के साथ दर्शाया जा सकता है, जो अक्सर दो-भाग वाले कोड की तुलना में अधिक कुशल होता है। एमएमएल के मूल विवरण में, सभी पैरामीटर पहले भाग में एन्कोड किए गए हैं, इसलिए सभी पैरामीटर सीखे गए हैं।
* दोनों विधियाँ दो-भाग कोड का उपयोग करती हैं: पहला भाग हमेशा उस जानकारी का प्रतिनिधित्व करता है जिसे कोई सीखने की कोशिश कर रहा है, जैसे मॉडल वर्ग का सूचकांक (मॉडल चयन) या पैरामीटर मान ([[पैरामीटर अनुमान]]); दूसरा भाग पहले भाग में दी गई जानकारी दिए गए डेटा का एन्कोडिंग है। विधियों के बीच अंतर यह है कि, एमडीएल साहित्य में, यह वकालत की जाती है कि अवांछित मापदंडों को कोड के दूसरे भाग में ले जाया जाना चाहिए, जहां उन्हें तथाकथित [[एक-भाग कोड]] का उपयोग करके डेटा के साथ दर्शाया जा सकता है, जो अक्सर दो-भाग वाले कोड की तुलना में अधिक कुशल होता है। एमएमएल के मूल विवरण में, सभी पैरामीटर पहले भाग में एन्कोड किए गए हैं, इसलिए सभी पैरामीटर सीखे गए हैं।
* एमएमएल ढांचे के भीतर, प्रत्येक पैरामीटर बिल्कुल सटीक रूप से बताया गया है जिसके परिणामस्वरूप इष्टतम समग्र संदेश लंबाई होती है: पूर्ववर्ती उदाहरण उत्पन्न हो सकता है यदि कुछ पैरामीटर को मूल रूप से संभवतः मॉडल के लिए उपयोगी माना जाता था लेकिन बाद में समझाने में मदद करने में असमर्थ पाया गया डेटा (ऐसे पैरामीटर को (बायेसियन) पूर्व संभावना के अनुरूप एक कोड लंबाई सौंपी जाएगी कि पैरामीटर अनुपयोगी पाया जाएगा)। एमडीएल ढांचे में, मॉडल की तुलना में मॉडल वर्गों की तुलना करने पर अधिक ध्यान केंद्रित किया जाता है, और मॉडलों के वर्ग की तुलना करके उसी प्रश्न पर विचार करना अधिक स्वाभाविक है जिसमें स्पष्ट रूप से किसी अन्य वर्ग के खिलाफ ऐसा पैरामीटर शामिल होता है जो ऐसा नहीं करता है। अंतर एक ही निष्कर्ष पर पहुंचने के लिए लागू की गई मशीनरी में निहित है।
* एमएमएल ढांचे के भीतर, प्रत्येक पैरामीटर बिल्कुल सटीक रूप से बताया गया है जिसके परिणामस्वरूप इष्टतम समग्र संदेश लंबाई होती है: पूर्ववर्ती उदाहरण उत्पन्न हो सकता है यदि कुछ पैरामीटर को मूल रूप से संभवतः मॉडल के लिए उपयोगी माना जाता था लेकिन बाद में समझाने में मदद करने में असमर्थ पाया गया डेटा (ऐसे पैरामीटर को (बायेसियन) पूर्व संभावना के अनुरूप कोड लंबाई सौंपी जाएगी कि पैरामीटर अनुपयोगी पाया जाएगा)। एमडीएल ढांचे में, मॉडल की तुलना में मॉडल वर्गों की तुलना करने पर अधिक ध्यान केंद्रित किया जाता है, और मॉडलों के वर्ग की तुलना करके उसी प्रश्न पर विचार करना अधिक स्वाभाविक है जिसमें स्पष्ट रूप से किसी अन्य वर्ग के खिलाफ ऐसा पैरामीटर शामिल होता है जो ऐसा नहीं करता है। अंतर ही निष्कर्ष पर पहुंचने के लिए लागू की गई मशीनरी में निहित है।


==यह भी देखें==
==यह भी देखें==
Line 110: Line 102:
==संदर्भ==
==संदर्भ==
{{Reflist}}
{{Reflist}}


==अग्रिम पठन==
==अग्रिम पठन==

Revision as of 18:49, 11 July 2023

न्यूनतम विवरण लंबाई (एमडीएल) मॉडल चयन सिद्धांत है जहां डेटा का सबसे छोटा विवरण सबसे अच्छा मॉडल है। एमडीएल विधियां डेटा संपीड़न परिप्रेक्ष्य के माध्यम से सीखती हैं और कभी-कभी उन्हें ओकाम के रेजर के गणितीय अनुप्रयोगों के रूप में वर्णित किया जाता है। एमडीएल सिद्धांत को आगमनात्मक अनुमान और सीखने के अन्य रूपों तक बढ़ाया जा सकता है, उदाहरण के लिए अनुमान और अनुक्रमिक भविष्यवाणी, डेटा के भी मॉडल को स्पष्ट रूप से पहचाने बिना।

एमडीएल की उत्पत्ति ज्यादातर सूचना सिद्धांत में हुई है और इसे सांख्यिकी, सैद्धांतिक कंप्यूटर विज्ञान और मशीन लर्निंग, और अधिक संकीर्ण कम्प्यूटेशनल शिक्षण सिद्धांत के सामान्य क्षेत्रों में विकसित किया गया है।

ऐतिहासिक रूप से, निश्चित संज्ञा वाक्यांश ' न्यूनतम विवरण लंबाई सिद्धांत के अलग-अलग, फिर भी परस्पर संबंधित, उपयोग हैं जो विवरण के अर्थ में भिन्न हैं:

  • जोर्मा रिसेनन के सीखने के सिद्धांत के भीतर, सूचना सिद्धांत की केंद्रीय अवधारणा, मॉडल सांख्यिकीय परिकल्पनाएं हैं और विवरण को सार्वभौमिक कोड के रूप में परिभाषित किया गया है।
  • रिसेनन की 1978[1] स्वचालित रूप से संक्षिप्त विवरण प्राप्त करने का व्यावहारिक पहला प्रयास, बायेसियन सूचना मानदंड (बीआईसी) से संबंधित है।
  • एल्गोरिथम सूचना सिद्धांत के भीतर, जहां डेटा अनुक्रम की विवरण लंबाई उस डेटा सेट को आउटपुट करने वाले सबसे छोटे प्रोग्राम की लंबाई है। इस संदर्भ में, इसे 'आदर्शीकृत' एमडीएल सिद्धांत के रूप में भी जाना जाता है और यह सोलोमनॉफ के आगमनात्मक अनुमान के सिद्धांत से निकटता से संबंधित है, जो यह है कि डेटा सेट का सबसे अच्छा मॉडल उसके सबसे छोटे स्व-निष्कर्षण संग्रह द्वारा दर्शाया जाता है।

अवलोकन

सर्वोत्तम मॉडल के रूप में उपलब्ध डेटा की न्यूनतम लंबाई विवरण का चयन करना ओकैम के रेजर के रूप में पहचाने गए सिद्धांत का पालन करता है। कंप्यूटर प्रोग्रामिंग के आगमन से पहले, ऐसे विवरण तैयार करना वैज्ञानिक सिद्धांतकारों का बौद्धिक श्रम था। यह कंप्यूटर युग की तुलना में बहुत कम औपचारिक था। यदि दो वैज्ञानिकों के बीच सैद्धांतिक असहमति होती, तो वे अपने सिद्धांतों के बीच चयन करने के लिए शायद ही कभी औपचारिक रूप से ओकाम के रेजर का उपयोग कर पाते। उनके पास अलग-अलग डेटा सेट और संभवतः अलग-अलग वर्णनात्मक भाषाएँ होंगी। फिर भी, विज्ञान उन्नत हुआ क्योंकि ओकाम का रेजर यह तय करने में अनौपचारिक मार्गदर्शक था कि कौन सा मॉडल सबसे अच्छा था।

औपचारिक भाषाओं और कंप्यूटर प्रोग्रामिंग के आगमन के साथ ओकाम के रेज़र को गणितीय रूप से परिभाषित किया गया। अवलोकनों के दिए गए सेट के मॉडल, डेटा के बिट्स के रूप में एन्कोड किए गए, कंप्यूटर प्रोग्राम के रूप में बनाए जा सकते हैं जो उस डेटा को आउटपुट करते हैं। इसके बाद ओकाम का रेज़र औपचारिक रूप से सबसे छोटे प्रोग्राम का चयन कर सकता है, जिसे इस एल्गोरिथम जानकारी के बिट्स में मापा जाता है, सर्वोत्तम मॉडल के रूप में।

भ्रम से बचने के लिए, ध्यान दें कि एमडीएल सिद्धांत में ऐसा कुछ भी नहीं है जो यह दर्शाता हो कि मशीन ने मॉडल को मूर्त रूप देते हुए प्रोग्राम तैयार किया है। यह पूरी तरह से इंसानों का उत्पाद हो सकता है। एमडीएल सिद्धांत इस पर ध्यान दिए बिना लागू होता है कि कंप्यूटर पर चलाया जाने वाला विवरण मनुष्यों, मशीनों या उनके किसी संयोजन का उत्पाद है या नहीं। एमडीएल सिद्धांत के लिए केवल यह आवश्यक है कि सबसे छोटा विवरण, निष्पादित होने पर, त्रुटि के बिना मूल डेटा सेट तैयार करे।

दो-भाग कोड

कंप्यूटर प्रोग्राम में प्रोग्राम और शाब्दिक डेटा के बीच का अंतर सभी औपचारिक विवरणों पर लागू होता है और कभी-कभी इसे विवरण के दो भागों के रूप में संदर्भित किया जाता है। सांख्यिकीय एमडीएल सीखने में, ऐसे विवरण को अक्सर दो-भाग वाला कोड कहा जाता है।

मशीन लर्निंग में एमडीएल

एमडीएल मशीन लर्निंग में लागू होता है जब एल्गोरिदम (मशीनें) विवरण उत्पन्न करते हैं। सीखना तब होता है जब एल्गोरिदम समान डेटा सेट का छोटा विवरण तैयार करता है।

हालाँकि, डेटा सेट की सैद्धांतिक न्यूनतम विवरण लंबाई, जिसे इसकी कोलमोगोरोव जटिलता कहा जाता है, की गणना नहीं की जा सकती है। कहने का तात्पर्य यह है कि, भले ही यादृच्छिक संयोग से एल्गोरिथ्म डेटा सेट को आउटपुट करने वाले सभी में से सबसे छोटा प्रोग्राम उत्पन्न करता है, स्वचालित प्रमेय साबित नहीं कर सकता है कि ऐसा कोई छोटा प्रोग्राम नहीं है। फिर भी, डेटासेट को आउटपुट करने वाले दो प्रोग्राम दिए गए हैं, एमडीएल सिद्धांत सर्वोत्तम मॉडल को मूर्त रूप देने के लिए दोनों में से छोटे को चुनता है।

एल्गोरिदमिक एमडीएल लर्निंग पर हालिया काम

हाल ही में सांख्यिकीय के विपरीत, एल्गोरिदमिक की मशीन एमडीएल लर्निंग, डेटा मॉडल ने डेटा की बढ़ती उपलब्धता, गणना संसाधनों और सैद्धांतिक प्रगति के साथ ध्यान आकर्षित किया है।[2][3] कृत्रिम सामान्य बुद्धि के बढ़ते क्षेत्र द्वारा दृष्टिकोणों को सूचित किया जाता है। अपनी मृत्यु से कुछ समय पहले, मार्विन मिंस्की ने शोध की इस दिशा के पक्ष में जोरदार ढंग से सामने आते हुए कहा:[4]

It seems to me that the most important discovery since Gödel was the discovery by Chaitin, Solomonoff and Kolmogorov of the concept called Algorithmic Probability which is a fundamental new theory of how to make predictions given a collection of experiences and this is a beautiful theory, everybody should learn it, but it’s got one problem, that is, that you cannot actually calculate what this theory predicts because it is too hard, it requires an infinite amount of work. However, it should be possible to make practical approximations to the Chaitin, Kolmogorov, Solomonoff theory that would make better predictions than anything we have today. Everybody should learn all about that and spend the rest of their lives working on it.

— Panel discussion on The Limits of Understanding, World Science Festival, NYC, Dec 14, 2014

सांख्यिकीय एमडीएल सीखना

डेटा के किसी भी सेट को परिमित (जैसे, बाइनरी अंक प्रणाली) वर्णमाला से प्रतीकों की स्ट्रिंग द्वारा दर्शाया जा सकता है।

<ब्लॉककोट> [एमडीएल सिद्धांत] निम्नलिखित अंतर्दृष्टि पर आधारित है: डेटा के दिए गए सेट में किसी भी नियमितता का उपयोग डेटा संपीड़न के लिए किया जा सकता है, यानी डेटा का शाब्दिक वर्णन करने के लिए आवश्यकता से कम प्रतीकों का उपयोग करके इसका वर्णन करना। (ग्रुनवाल्ड, 2004)[5] </ब्लॉककोट>

इसके आधार पर, 1978 में, जोर्मा रिसेनन ने एल्गोरिथम जानकारी के बजाय एन्ट्रॉपी (सूचना सिद्धांत) का उपयोग करके एमडीएल लर्निंग एल्गोरिदम प्रकाशित किया। पिछले 40 वर्षों में यह सांख्यिकीय और मशीन सीखने की प्रक्रियाओं के समृद्ध सिद्धांत के रूप में विकसित हुआ है, जो बायेसियन मॉडल चयन और औसत, लासो और रिज जैसे दंड के तरीकों और इसी तरह से जुड़ा हुआ है - ग्रुनवाल्ड और रोस (2020)[6] सभी आधुनिक विकासों सहित परिचय दीजिए। रिसेनन ने इस विचार के साथ शुरुआत की: सभी सांख्यिकीय शिक्षा डेटा में नियमितता खोजने के बारे में है, और डेटा में नियमितता का वर्णन करने के लिए सबसे अच्छी परिकल्पना भी वह है जो डेटा को सांख्यिकीय रूप से सबसे अधिक संपीड़ित करने में सक्षम है। अन्य सांख्यिकीय विधियों की तरह, इसका उपयोग कुछ डेटा का उपयोग करके किसी मॉडल के मापदंडों को सीखने के लिए किया जा सकता है। हालाँकि, आमतौर पर मानक सांख्यिकीय पद्धतियाँ मानती हैं कि किसी मॉडल का सामान्य रूप निश्चित है। एमडीएल की मुख्य ताकत यह है कि इसका उपयोग किसी मॉडल के सामान्य रूप और उसके मापदंडों का चयन करने के लिए भी किया जा सकता है। रुचि की मात्रा (कभी-कभी सिर्फ मॉडल, कभी-कभी सिर्फ पैरामीटर, कभी-कभी ही समय में दोनों) को परिकल्पना कहा जाता है। मूल विचार तो दोषरहित संपीड़न|(दोषरहित) दो-चरण कोड पर विचार करना है जो डेटा को एन्कोड करता है लंबाई के साथ किसी परिकल्पना को पहले कूटबद्ध करके सुविचारित परिकल्पनाओं के सेट में और फिर कोडिंग की मदद से ; सबसे सरल संदर्भ में इसका मतलब केवल पूर्वानुमानों से डेटा के विचलन को एन्कोड करना है :

 h> इस न्यूनतम को प्राप्त करना डेटा की सर्वोत्तम व्याख्या के रूप में देखा जाता है . सरल उदाहरण के रूप में, प्रतिगमन समस्या लें: डेटा  इसमें बिंदुओं का क्रम शामिल हो सकता है , सेट  से सभी बहुपदों का समुच्चय हो सकता है  को . बहुपद का वर्णन करने के लिए  डिग्री का (कहें) , किसी को पहले कुछ परिशुद्धता के लिए मापदंडों को अलग करना होगा; फिर किसी को इस परिशुद्धता (एक प्राकृतिक संख्या) का वर्णन करना होगा; इसके बाद, किसी को डिग्री का वर्णन करना होगा  (एक अन्य प्राकृतिक संख्या), और अंतिम चरण में, किसी को वर्णन करना होगा  पैरामीटर; कुल लंबाई होगी . फिर कोई इसमें बिंदुओं का वर्णन करेगा  x-मानों के लिए कुछ निश्चित कोड का उपयोग करना और फिर इसके लिए कोड का उपयोग करना  विचलन .

व्यवहार में, व्यक्ति अक्सर (लेकिन हमेशा नहीं) संभाव्य मॉडल का उपयोग करता है। उदाहरण के लिए, प्रत्येक बहुपद को संबद्ध करता है दिए गए को व्यक्त करते हुए संगत सशर्त वितरण के साथ , सामान्यतः माध्य के साथ वितरित किया जाता है और कुछ भिन्नता जिसे या तो ठीक किया जा सकता है या मुफ़्त पैरामीटर के रूप में जोड़ा जा सकता है। फिर परिकल्पनाओं का सेट रैखिक की धारणा को कम करता है[clarification needed] नमूना, , साथ बहुपद.

इसके अलावा, किसी को अक्सर विशिष्ट पैरामीटर मानों में सीधे तौर पर दिलचस्पी नहीं होती है, लेकिन उदाहरण के लिए, बहुपद की डिग्री में। उस स्थिति में, कोई सेट हो जाता है होना जहां प्रत्येक इस परिकल्पना का प्रतिनिधित्व करता है कि डेटा को जे-वें डिग्री बहुपद के रूप में सबसे अच्छा वर्णित किया गया है। फिर डेटा को कोड करता है परिकल्पना दी गई एक-भाग वाले कोड का उपयोग इस तरह से डिज़ाइन किया गया है कि, जब भी कोई परिकल्पना हो कोडलेंथ, डेटा को अच्छी तरह से फिट करता है छोटा है। ऐसे कोड के डिज़ाइन को यूनिवर्सल कोड (डेटा कम्प्रेशन) कहा जाता है। विभिन्न प्रकार के सार्वभौमिक कोड हैं जिनका उपयोग कोई भी कर सकता है, जो अक्सर लंबे डेटा अनुक्रमों के लिए समान लंबाई देते हैं लेकिन छोटे डेटा अनुक्रमों के लिए भिन्न होते हैं। 'सर्वोत्तम' (इस अर्थ में कि इसमें न्यूनतम अधिकतम इष्टतमता संपत्ति है) सामान्यीकृत अधिकतम संभावना (एनएमएल) या श्टार्कोव कोड हैं। कोड का काफी उपयोगी वर्ग बायेसियन सीमांत संभावना कोड है। वितरण के घातांकीय परिवारों के लिए, जब जेफ़्रीज़ पूर्व का उपयोग किया जाता है और पैरामीटर स्थान उपयुक्त रूप से प्रतिबंधित होता है, तो ये असममित रूप से एनएमएल कोड के साथ मेल खाते हैं; यह एमडीएल सिद्धांत को वस्तुनिष्ठ बेयस मॉडल चयन के निकट संपर्क में लाता है, जिसमें व्यक्ति कभी-कभी जेफ़रीज़ के पूर्व को भी अपनाता है, भले ही अलग-अलग कारणों से। मॉडल चयन के लिए एमडीएल दृष्टिकोण औपचारिक रूप से बायेसियन सूचना मानदंड दृष्टिकोण के समान चयन मानदंड देता है[7] बड़ी संख्या में नमूनों के लिए.

सांख्यिकीय एमडीएल लर्निंग का उदाहरण

एक सिक्के को 1000 बार उछाला जाता है और चित और पट की संख्या दर्ज की जाती है। दो मॉडल वर्गों पर विचार करें:

  • पहला कोड है जो चित के लिए 0 या पट के लिए 1 के साथ परिणामों को दर्शाता है। यह कोड इस परिकल्पना का प्रतिनिधित्व करता है कि सिक्का उचित है। इस कोड के अनुसार कोड की लंबाई हमेशा ठीक 1000 बिट्स होती है।
  • दूसरे में वे सभी कोड शामिल हैं जो कुछ विशिष्ट पूर्वाग्रह वाले सिक्के के लिए कुशल हैं, जो इस परिकल्पना का प्रतिनिधित्व करते हैं कि सिक्का उचित नहीं है। मान लीजिए कि हम 510 चित और 490 पट देखते हैं। फिर दूसरे मॉडल वर्ग में सर्वोत्तम कोड के अनुसार कोड की लंबाई 1000 बिट्स से कम है।

इस कारण से, अनुभवहीन सांख्यिकीय पद्धति डेटा के लिए बेहतर स्पष्टीकरण के रूप में दूसरे मॉडल को चुन सकती है। हालाँकि, एमडीएल दृष्टिकोण केवल सर्वश्रेष्ठ का उपयोग करने के बजाय, परिकल्पना के आधार पर एकल कोड का निर्माण करेगा। यह कोड सामान्यीकृत अधिकतम संभावना कोड या बायेसियन कोड हो सकता है। यदि ऐसे कोड का उपयोग किया जाता है, तो दूसरे मॉडल वर्ग के आधार पर कुल कोड लंबाई 1000 बिट्स से बड़ी होगी। इसलिए, एमडीएल दृष्टिकोण का पालन करते समय निष्कर्ष अनिवार्य रूप से है कि पक्षपाती सिक्के की परिकल्पना का समर्थन करने के लिए पर्याप्त सबूत नहीं हैं, भले ही दूसरे मॉडल वर्ग का सबसे अच्छा तत्व डेटा के लिए बेहतर फिट प्रदान करता है।

सांख्यिकीय एमडीएल संकेतन

एमडीएल सिद्धांत का केंद्र कोड लंबाई फ़ंक्शन (गणित) और संभाव्यता वितरण के बीच एक-से-एक पत्राचार है (यह क्राफ्ट-मैकमिलन प्रमेय | क्राफ्ट-मैकमिलन असमानता से अनुसरण करता है)। किसी भी संभाव्यता वितरण के लिए , कोड बनाना संभव है ऐसी कि लंबाई (बिट्स में)। के बराबर है ; यह कोड अपेक्षित कोड लंबाई को कम करता है। इसके विपरीत, कोड दिया गया है , कोई संभाव्यता वितरण का निर्माण कर सकता है ऐसा कि वही कायम है। (राउंडिंग मुद्दों को यहां नजरअंदाज कर दिया गया है।) दूसरे शब्दों में, कुशल कोड की खोज अच्छे संभाव्यता वितरण की खोज के बराबर है।

सांख्यिकीय एमडीएल लर्निंग की सीमाएं

सांख्यिकीय एमडीएल की विवरण भाषा कम्प्यूटेशनल रूप से सार्वभौमिक नहीं है। इसलिए, सिद्धांत रूप में भी, यह पुनरावर्ती प्राकृतिक प्रक्रियाओं के मॉडल नहीं सीख सकता है।

संबंधित अवधारणाएँ

सांख्यिकीय एमडीएल सीखना ऊपर उल्लिखित कोड और संभाव्यता वितरण के बीच पत्राचार के माध्यम से संभाव्यता सिद्धांत और आंकड़ों से बहुत मजबूती से जुड़ा हुआ है। इसने कुछ शोधकर्ताओं को एमडीएल को बायेसियन अनुमान के समकक्ष देखने के लिए प्रेरित किया है: एमडीएल में मॉडल और डेटा की कोड लंबाई क्रमशः बायेसियन ढांचे में पूर्व संभावना और सीमांत संभावना के अनुरूप है।[8] जबकि बायेसियन मशीनरी अक्सर कुशल एमडीएल कोड बनाने में उपयोगी होती है, एमडीएल ढांचा अन्य कोड को भी समायोजित करता है जो बायेसियन नहीं हैं। उदाहरण श्टार्कोव सामान्यीकृत अधिकतम संभावना कोड है, जो वर्तमान एमडीएल सिद्धांत में केंद्रीय भूमिका निभाता है, लेकिन बायेसियन अनुमान में इसका कोई समकक्ष नहीं है। इसके अलावा, रिसेनन इस बात पर जोर देते हैं कि हमें वास्तविक संभाव्य मॉडल के बारे में कोई धारणा नहीं बनानी चाहिए। .[9][10] अंतिम उल्लिखित संदर्भ में रिसेनन कोलमोगोरोव संरचना कार्य पर एमडीएल के गणितीय आधार को आधार बनाता है।

एमडीएल दर्शन के अनुसार, बायेसियन तरीकों को खारिज कर दिया जाना चाहिए यदि वे असुरक्षित पूर्व संभावना पर आधारित हैं जिससे खराब परिणाम मिलेंगे। जो प्राथमिकताएं एमडीएल के दृष्टिकोण से स्वीकार्य हैं, उन्हें तथाकथित ऑब्जेक्टिव बायेसियन संभाव्यता विश्लेषण में भी पसंद किया जाता है; हालाँकि, वहाँ प्रेरणा आमतौर पर भिन्न होती है।[11]

अन्य सिस्टम

रिसेनन सीखने का पहला सूचना सिद्धांत नहीं था| 1968 की शुरुआत में वालेस और बोल्टन ने न्यूनतम संदेश लंबाई (एमएमएल) नामक संबंधित अवधारणा का बीड़ा उठाया। एमडीएल और एमएमएल के बीच अंतर निरंतर भ्रम का स्रोत है। सतही तौर पर, विधियाँ अधिकतर समतुल्य दिखाई देती हैं, लेकिन कुछ महत्वपूर्ण अंतर हैं, विशेषकर व्याख्या में:

  • एमएमएल पूरी तरह से व्यक्तिपरक बायेसियन दृष्टिकोण है: यह इस विचार से शुरू होता है कि कोई व्यक्ति पूर्व वितरण के रूप में डेटा-जनरेटिंग प्रक्रिया के बारे में अपनी मान्यताओं का प्रतिनिधित्व करता है। एमडीएल डेटा-जनरेटिंग प्रक्रिया के बारे में धारणाओं से बचता है।
  • दोनों विधियाँ दो-भाग कोड का उपयोग करती हैं: पहला भाग हमेशा उस जानकारी का प्रतिनिधित्व करता है जिसे कोई सीखने की कोशिश कर रहा है, जैसे मॉडल वर्ग का सूचकांक (मॉडल चयन) या पैरामीटर मान (पैरामीटर अनुमान); दूसरा भाग पहले भाग में दी गई जानकारी दिए गए डेटा का एन्कोडिंग है। विधियों के बीच अंतर यह है कि, एमडीएल साहित्य में, यह वकालत की जाती है कि अवांछित मापदंडों को कोड के दूसरे भाग में ले जाया जाना चाहिए, जहां उन्हें तथाकथित एक-भाग कोड का उपयोग करके डेटा के साथ दर्शाया जा सकता है, जो अक्सर दो-भाग वाले कोड की तुलना में अधिक कुशल होता है। एमएमएल के मूल विवरण में, सभी पैरामीटर पहले भाग में एन्कोड किए गए हैं, इसलिए सभी पैरामीटर सीखे गए हैं।
  • एमएमएल ढांचे के भीतर, प्रत्येक पैरामीटर बिल्कुल सटीक रूप से बताया गया है जिसके परिणामस्वरूप इष्टतम समग्र संदेश लंबाई होती है: पूर्ववर्ती उदाहरण उत्पन्न हो सकता है यदि कुछ पैरामीटर को मूल रूप से संभवतः मॉडल के लिए उपयोगी माना जाता था लेकिन बाद में समझाने में मदद करने में असमर्थ पाया गया डेटा (ऐसे पैरामीटर को (बायेसियन) पूर्व संभावना के अनुरूप कोड लंबाई सौंपी जाएगी कि पैरामीटर अनुपयोगी पाया जाएगा)। एमडीएल ढांचे में, मॉडल की तुलना में मॉडल वर्गों की तुलना करने पर अधिक ध्यान केंद्रित किया जाता है, और मॉडलों के वर्ग की तुलना करके उसी प्रश्न पर विचार करना अधिक स्वाभाविक है जिसमें स्पष्ट रूप से किसी अन्य वर्ग के खिलाफ ऐसा पैरामीटर शामिल होता है जो ऐसा नहीं करता है। अंतर ही निष्कर्ष पर पहुंचने के लिए लागू की गई मशीनरी में निहित है।

यह भी देखें

संदर्भ

  1. Rissanen, J. (September 1978). "सबसे छोटे डेटा विवरण द्वारा मॉडलिंग". Automatica. 14 (5): 465–471. doi:10.1016/0005-1098(78)90005-5.
  2. Zenil, Hector; Kiani, Narsis A.; Zea, Allan A.; Tegnér, Jesper (January 2019). "एल्गोरिथम जनरेटिव मॉडल द्वारा कारण विखंडन". Nature Machine Intelligence. 1 (1): 58–66. doi:10.1038/s42256-018-0005-0. hdl:10754/630919. S2CID 86562557.
  3. "Remodelling machine learning: An AI that thinks like a scientist". Nature Machine Intelligence: 1. 28 January 2019. doi:10.1038/s42256-019-0026-3. S2CID 189929110.
  4. Archived at Ghostarchive and the Wayback Machine: "The Limits of Understanding". YouTube.
  5. Grunwald, Peter (June 2004). "न्यूनतम विवरण लंबाई सिद्धांत का एक ट्यूटोरियल परिचय". arXiv:math/0406077. Bibcode:2004math......6077G. {{cite journal}}: Cite journal requires |journal= (help)
  6. Grünwald, Peter; Roos, Teemu (2020). "न्यूनतम विवरण लंबाई पर दोबारा गौर किया गया". International Journal of Mathematics for Industry. 11 (1). doi:10.1142/S2661335219300018. S2CID 201314867.
  7. Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). "Model Assessment and Selection". सांख्यिकीय सबक के तत्व. Springer Series in Statistics. pp. 219–259. doi:10.1007/978-0-387-84858-7_7. ISBN 978-0-387-84857-0.
  8. MacKay, David J. C.; Kay, David J. C. Mac (2003). सूचना सिद्धांत, अनुमान और शिक्षण एल्गोरिदम. Cambridge University Press. ISBN 978-0-521-64298-9.[page needed]
  9. Rissanen, Jorma. "Homepage of Jorma Rissanen". Archived from the original on 2015-12-10. Retrieved 2010-07-03.
  10. Rissanen, J. (2007). Information and Complexity in Statistical Modeling. Springer. Retrieved 2010-07-03.[page needed]
  11. Nannen, Volker (May 2010). "मॉडल चयन, कोलमोगोरोव जटिलता और न्यूनतम विवरण लंबाई (एमडीएल) का संक्षिप्त परिचय". arXiv:1005.2364. Bibcode:2010arXiv1005.2364N. {{cite journal}}: Cite journal requires |journal= (help)

अग्रिम पठन