ऊर्जा-आधारित प्रारूप
एक ऊर्जा-आधारित मॉडल (ईबीएम) जनरेटिव मॉडल (जीएम) का रूप है जो सीधे सांख्यिकीय भौतिकी से सीखने के लिए आयात किया जाता है। जीएम नमूना डेटासेट का विश्लेषण करके अंतर्निहित डेटा वितरण सीखते हैं। बार प्रशिक्षित होने के बाद, जीएम अन्य डेटासेट तैयार कर सकता है जो डेटा वितरण से भी मेल खाता है।[1] ईबीएम ऐसे सीखने के लिए कई संभाव्य और गैर-संभाव्य दृष्टिकोणों के लिए एकीकृत ढांचा प्रदान करते हैं, विशेष रूप से ग्राफिकल मॉडल और अन्य संरचित मॉडल के प्रशिक्षण के लिए।[2] एक ईबीएम लक्ष्य डेटासेट की विशेषताओं को सीखता है और समान लेकिन बड़ा डेटासेट उत्पन्न करता है। ईबीएम डेटासेट के अव्यक्त चर का पता लगाते हैं और समान वितरण के साथ नए डेटासेट उत्पन्न करते हैं।[2]
लक्ष्य अनुप्रयोगों में प्राकृतिक भाषा प्रसंस्करण, रोबोटिक्स और कंप्यूटर दृष्टि शामिल हैं।[2]
इतिहास
ऊर्जा-आधारित मॉडल शब्द सबसे पहले जेएमएलआर पेपर में गढ़ा गया था[3] जहां लेखकों ने ईबीएम का उपयोग करके पूर्ण सेटिंग के लिए स्वतंत्र घटक विश्लेषण के सामान्यीकरण को परिभाषित किया। ईबीएम पर अन्य शुरुआती कार्यों में ऐसे मॉडल प्रस्तावित किए गए जो ऊर्जा को अव्यक्त और अवलोकन योग्य चर की संरचना के रूप में दर्शाते थे। ईबीएम 2003 में सामने आए।[4]
दृष्टिकोण
ईबीएम प्रेक्षित और अव्यक्त चर के संयोजन के प्रत्येक विन्यास में असामान्य संभाव्यता स्केलर (ऊर्जा) को जोड़कर निर्भरता पर कब्जा कर लेते हैं। अनुमान में अव्यक्त चरों का (मानों का) पता लगाना शामिल है, जो प्रेक्षित चरों के (मानों के) सेट को देखते हुए ऊर्जा को न्यूनतम करता है। इसी तरह, मॉडल फ़ंक्शन सीखता है जो कम ऊर्जा को अव्यक्त चर के सही मानों से जोड़ता है, और उच्च ऊर्जा को गलत मानों से जोड़ता है।[2]
पारंपरिक ईबीएम स्टोकेस्टिक ग्रेडिएंट डिसेंट | स्टोकेस्टिक ग्रेडिएंट-डिसेंट (एसजीडी) अनुकूलन विधियों पर भरोसा करते हैं जिन्हें आमतौर पर उच्च-आयाम डेटासेट पर लागू करना कठिन होता है। 2019 में, OpenAI ने वैरिएंट का प्रचार किया जिसमें इसके बजाय लैंग्विन गतिकी (LD) का उपयोग किया गया था। एलडी पुनरावृत्त अनुकूलन एल्गोरिदम है जो हानि फ़ंक्शन सीखने के हिस्से के रूप में अनुमानक को शोर पेश करता है। इसका उपयोग पश्च वितरण से नमूने तैयार करके बायेसियन अनुमान परिदृश्यों के लिए किया जा सकता है।[2]
ईबीएम को यह आवश्यक नहीं है कि ऊर्जाओं को संभावनाओं के रूप में सामान्यीकृत किया जाए। दूसरे शब्दों में, ऊर्जाओं को 1 के योग की आवश्यकता नहीं है। चूंकि संभाव्य मॉडल की तरह सामान्यीकरण (सांख्यिकी) स्थिरांक का अनुमान लगाने की कोई आवश्यकता नहीं है, ईबीएम के साथ अनुमान और सीखने के कुछ रूप अधिक सुव्यवस्थित और लचीले हैं।[2]
नमूने मार्कोव श्रृंखला मोंटे कार्लो दृष्टिकोण के माध्यम से अंतर्निहित रूप से उत्पन्न होते हैं।[5] अनुकूलन मॉड्यूल को आरंभ करने के लिए एलडी के साथ पिछली छवियों का रीप्ले बफर का उपयोग किया जाता है।[2]
विशेषताएँ
ईबीएम उपयोगी गुण प्रदर्शित करते हैं:[2]
- सरलता और स्थिरता-ईबीएम एकमात्र ऐसी वस्तु है जिसे डिजाइन और प्रशिक्षित करने की आवश्यकता है। संतुलन सुनिश्चित करने के लिए अलग-अलग नेटवर्क को प्रशिक्षित करने की आवश्यकता नहीं है।
- अनुकूली गणना समय- ईबीएम तेज, विविध नमूने या (अधिक तेज़ी से) मोटे, कम विविध नमूने उत्पन्न कर सकता है। अनंत समय को देखते हुए, यह प्रक्रिया सच्चे नमूने तैयार करती है।[1]* लचीलापन - ऑटोएनकोडर (वीएई) और प्रवाह-आधारित मॉडल में, जनरेटर निरंतर स्थान से (संभवतः) अलग-अलग डेटा मोड वाले असंतत स्थान तक नक्शा सीखता है। ईबीएम असंयुक्त क्षेत्रों (एकाधिक मोड) को कम ऊर्जा आवंटित करना सीख सकते हैं।
- अनुकूली पीढ़ी-ईबीएम जनरेटर को संभाव्यता वितरण द्वारा स्पष्ट रूप से परिभाषित किया जाता है, और स्वचालित रूप से वितरण परिवर्तन (प्रशिक्षण के बिना) के रूप में अनुकूलित होता है, जिससे ईबीएम को उन डोमेन को संबोधित करने की अनुमति मिलती है जहां जनरेटर प्रशिक्षण अव्यावहारिक है, साथ ही मोड पतन को कम करता है और बाहर से नकली मोड से बचता है। वितरण के नमूने।[5]* संरचना-व्यक्तिगत मॉडल असामान्य संभाव्यता वितरण हैं, जो मॉडल को विशेषज्ञों या अन्य पदानुक्रमित तकनीकों के उत्पाद के माध्यम से संयोजित करने की अनुमति देते हैं।
प्रायोगिक परिणाम
CIFAR-10 और ImageNet 32x32 जैसे छवि डेटासेट पर, EBM मॉडल अपेक्षाकृत तेज़ी से उच्च गुणवत्ता वाली छवियां उत्पन्न करता है। यह अन्य प्रकार की छवियां बनाने के लिए प्रकार की छवि से सीखी गई सुविधाओं के संयोजन का समर्थन करता है। यह आउट-ऑफ-डिस्ट्रीब्यूशन डेटासेट का उपयोग करके सामान्यीकरण करने में सक्षम था, प्रवाह-आधारित और ऑटोरेग्रेसिव मॉडल से बेहतर प्रदर्शन कर रहा था। ईबीएम अपेक्षाकृत प्रतिकूल गड़बड़ी के प्रति प्रतिरोधी था, वर्गीकरण के लिए प्रशिक्षण के साथ स्पष्ट रूप से उनके खिलाफ प्रशिक्षित मॉडल की तुलना में बेहतर व्यवहार करता था।[2]
विकल्प
ईबीएम वैरिएबल ऑटोएनकोडर (वीएई) या जनरेटिव प्रतिकूल नेटवर्क (जीएएन) जैसी तकनीकों के साथ प्रतिस्पर्धा करते हैं।[2]
संदर्भ
- ↑ 1.0 1.1 "ऊर्जा-आधारित मॉडलों के लिए अंतर्निहित सृजन और सामान्यीकरण के तरीके". OpenAI (in English). 2019-03-21. Retrieved 2019-12-27.
- ↑ 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 Rodriguez, Jesus (2019-04-01). "वास्तव में स्केल करने वाले ऊर्जा आधारित मॉडल का उपयोग करके प्रशिक्षण डेटासेट तैयार करना". Medium (in English). Archived from the original on 2019-04-01. Retrieved 2019-12-27.
- ↑ Teh, Yee Whye; Welling, Max; Osindero, Simon; Hinton, Geoffrey E. (December 2003). "विरल अतिपूर्ण अभ्यावेदन के लिए ऊर्जा-आधारित मॉडल". JMLR.
- ↑ LeCun, Yann (September 2003). "सीबीएलएल, रिसर्च प्रोजेक्ट्स, कम्प्यूटेशनल और बायोलॉजिकल लर्निंग लैब, कूरेंट इंस्टीट्यूट, एनवाईयू". cs.nyu.edu. Retrieved 2019-12-27.
- ↑ 5.0 5.1 Du, Yilun; Mordatch, Igor (2019-03-20). "ऊर्जा-आधारित मॉडलों में अंतर्निहित सृजन और सामान्यीकरण". arXiv:1903.08689 [cs.LG].
बाहरी संबंध
- "CIAR NCAP Summer School". www.cs.toronto.edu. Retrieved 2019-12-27.
- Dayan, Peter; Hinton, Geoffrey; Neal, Radford; Zemel, Richard S. (1999), "Helmholtz Machine", Unsupervised Learning, The MIT Press, doi:10.7551/mitpress/7011.003.0017, ISBN 978-0-262-28803-3
- Hinton, Geoffrey E. (August 2002). "Training Products of Experts by Minimizing Contrastive Divergence". Neural Computation. 14 (8): 1771–1800. doi:10.1162/089976602760128018. ISSN 0899-7667. PMID 12180402. S2CID 207596505.
- Salakhutdinov, Ruslan; Hinton, Geoffrey (2009-04-15). "Deep Boltzmann Machines". Artificial Intelligence and Statistics (in English): 448–455.