ज्ञान आसवन: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
 
(6 intermediate revisions by 3 users not shown)
Line 1: Line 1:
{{Short description|Machine learning method to transfer knowledge from a large model to a smaller one}}
{{Short description|Machine learning method to transfer knowledge from a large model to a smaller one}}
[[ यंत्र अधिगम |यंत्र अधिगम]] में, नॉलेज डिस्टिलेशन ज्ञान को बड़े [[सांख्यिकीय मॉडल]] से छोटे मॉडल में स्थानांतरित करने की प्रक्रिया है। जबकि बड़े मॉडल (जैसे कि बहुत गहरे तंत्रिका नेटवर्क या कई मॉडलों के एनसेंबल औसत (मशीन लर्निंग)) में छोटे मॉडल की तुलना में उच्च ज्ञान क्षमता होती है, यह क्षमता पूरी तरह से उपयोग नहीं की जा सकती है। यह कम्प्यूटेशनल रूप से मॉडल का मूल्यांकन करने के लिए उतना ही महंगा हो सकता है, भले ही वह अपनी ज्ञान क्षमता का कम उपयोग करता हो। नॉलेज डिस्टिलेशन [[ सांख्यिकीय मॉडल सत्यापन ]] को खोए बिना नॉलेज को बड़े मॉडल से छोटे मॉडल में ट्रांसफर करता है। चूंकि छोटे मॉडल मूल्यांकन के लिए कम खर्चीले होते हैं, उन्हें कम शक्तिशाली हार्डवेयर (जैसे [[मोबाइल डिवाइस]]) पर तैनात किया जा सकता है।<ref name="Hinton15">{{cite arXiv|title=एक तंत्रिका नेटवर्क में ज्ञान को आसवित करना|year=2015|eprint=1503.02531|last1=Hinton|first1=Geoffrey|last2=Vinyals|first2=Oriol|last3=Dean|first3=Jeff|class=stat.ML}}</ref>
[[ यंत्र अधिगम |यंत्र ज्ञान]] में, ज्ञान आसवन ज्ञान को बड़े [[सांख्यिकीय मॉडल]] से छोटे मॉडल में स्थानांतरित करने की प्रक्रिया है। जबकि बड़े मॉडल (जैसे कि बहुत गहरे तंत्रिका नेटवर्क या कई मॉडलों के समूह (यंत्र ज्ञान)) में छोटे मॉडल की तुलना में उच्च ज्ञान क्षमता होती है, यह क्षमता पूरी तरह से उपयोग नहीं की जा सकती है। यह कम्प्यूटेशनल रूप से मॉडल का मूल्यांकन करने के लिए उतना ही महंगा हो सकता है, तथापि वह अपनी ज्ञान क्षमता का कम उपयोग करता हो। ज्ञान आसवन [[ सांख्यिकीय मॉडल सत्यापन |सांख्यिकीय मॉडल सत्यापन]] के हानि के बिना ज्ञान को एक बड़े मॉडल से छोटे मॉडल में स्थानांतरित करता है। चूंकि छोटे मॉडल मूल्यांकन के लिए कम खर्चीले होते हैं, उन्हें कम शक्तिशाली हार्डवेयर (जैसे [[मोबाइल डिवाइस]]) पर प्रायुक्त किया जा सकता है।<ref name="Hinton15">{{cite arXiv|title=एक तंत्रिका नेटवर्क में ज्ञान को आसवित करना|year=2015|eprint=1503.02531|last1=Hinton|first1=Geoffrey|last2=Vinyals|first2=Oriol|last3=Dean|first3=Jeff|class=stat.ML}}</ref>
मशीन लर्निंग के कई अनुप्रयोगों जैसे [[ वस्तु का पता लगाना ]] में नॉलेज डिस्टिलेशन का सफलतापूर्वक उपयोग किया गया है।<ref>{{cite journal|last1=Chen|first1=Guobin|first2=Wongun|last2=Choi|first3=Xiang|last3=Yu|first4=Tony|last4=Han|first5=Manmohan|last5=Chandraker|title=ज्ञान आसवन के साथ कुशल वस्तु पहचान मॉडल सीखना|journal=Advances in Neural Information Processing Systems|pages=742–751|year=2017}}</ref> [[ध्वनिक मॉडल]],<ref>{{cite conference|last1=Asami|first1=Taichi|first2=Ryo|last2=Masumura|first3=Yoshikazu|last3=Yamaguchi|first4=Hirokazu|last4=Masataki|first5=Yushi|last5=Aono|title=ज्ञान आसवन का उपयोग करके DNN ध्वनिक मॉडल का डोमेन अनुकूलन|conference=IEEE International Conference on Acoustics, Speech and Signal Processing|pages=5185–5189|year=2017}}</ref> और [[प्राकृतिक भाषा प्रसंस्करण]]<ref>{{cite conference|last1=Cui|first1=Jia|first2=Brian|last2=Kingsbury|first3=Bhuvana|last3=Ramabhadran|first4=George|last4=Saon|first5=Tom|last5=Sercu|first6=Kartik|last6=Audhkhasi|first7=Abhinav|last7=Sethy|first8=Markus|last8=Nussbaum-Thom|first9=Andrew|last9=Rosenberg|title=निम्न-संसाधन वाली भाषाओं के लिए बहुभाषी मॉडलों के समूह में ज्ञान आसवन|conference=IEEE International Conference on Acoustics, Speech and Signal Processing|pages=4825–4829|year=2017}}}</ref>
 
हाल ही में, इसे गैर-ग्रिड डेटा पर लागू तंत्रिका नेटवर्क को ग्राफ़ करने के लिए भी पेश किया गया है।<ref>{{cite journal|last1=Yang|first1=Yiding|first2=Qiu|last2=Jiayan|first3=Song|last3=Mingli|first4=Tao|last4=Dacheng|first5=Wang|last5=Xinchao|title=ग्राफ कनवॉल्यूशनल नेटवर्क्स से डिस्टिलिंग नॉलेज|journal=Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition|pages=7072–7081|year=2020|arxiv=2003.10477|bibcode=2020arXiv200310477Y|url=https://openaccess.thecvf.com/content_CVPR_2020/papers/Yang_Distilling_Knowledge_From_Graph_Convolutional_Networks_CVPR_2020_paper.pdf}}</ref>
यंत्र ज्ञान के कई अनुप्रयोगों जैसे [[ वस्तु का पता लगाना |वस्तु का पता लगाना]] , [[ध्वनिक मॉडल]],<ref>{{cite conference|last1=Asami|first1=Taichi|first2=Ryo|last2=Masumura|first3=Yoshikazu|last3=Yamaguchi|first4=Hirokazu|last4=Masataki|first5=Yushi|last5=Aono|title=ज्ञान आसवन का उपयोग करके DNN ध्वनिक मॉडल का डोमेन अनुकूलन|conference=IEEE International Conference on Acoustics, Speech and Signal Processing|pages=5185–5189|year=2017}}</ref> और [[प्राकृतिक भाषा प्रसंस्करण]]<ref>{{cite conference|last1=Cui|first1=Jia|first2=Brian|last2=Kingsbury|first3=Bhuvana|last3=Ramabhadran|first4=George|last4=Saon|first5=Tom|last5=Sercu|first6=Kartik|last6=Audhkhasi|first7=Abhinav|last7=Sethy|first8=Markus|last8=Nussbaum-Thom|first9=Andrew|last9=Rosenberg|title=निम्न-संसाधन वाली भाषाओं के लिए बहुभाषी मॉडलों के समूह में ज्ञान आसवन|conference=IEEE International Conference on Acoustics, Speech and Signal Processing|pages=4825–4829|year=2017}}}</ref> में ज्ञान आसवन का सफलतापूर्वक उपयोग किया गया है।<ref>{{cite journal|last1=Chen|first1=Guobin|first2=Wongun|last2=Choi|first3=Xiang|last3=Yu|first4=Tony|last4=Han|first5=Manmohan|last5=Chandraker|title=ज्ञान आसवन के साथ कुशल वस्तु पहचान मॉडल सीखना|journal=Advances in Neural Information Processing Systems|pages=742–751|year=2017}}</ref> 
 
वर्तमान में, इसे गैर-ग्रिड डेटा पर लागू तंत्रिका नेटवर्क को ग्राफ़ करने के लिए भी प्रस्तुत किया गया है।<ref>{{cite journal|last1=Yang|first1=Yiding|first2=Qiu|last2=Jiayan|first3=Song|last3=Mingli|first4=Tao|last4=Dacheng|first5=Wang|last5=Xinchao|title=ग्राफ कनवॉल्यूशनल नेटवर्क्स से डिस्टिलिंग नॉलेज|journal=Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition|pages=7072–7081|year=2020|arxiv=2003.10477|bibcode=2020arXiv200310477Y|url=https://openaccess.thecvf.com/content_CVPR_2020/papers/Yang_Distilling_Knowledge_From_Graph_Convolutional_Networks_CVPR_2020_paper.pdf}}</ref>
 




== आसवन की अवधारणा ==
== आसवन की अवधारणा ==


ज्ञान को बड़े से छोटे मॉडल में स्थानांतरित करने के लिए किसी तरह से बाद वाले को बिना वैधता खोए सिखाने की जरूरत है। यदि दोनों मॉडलों को ही डेटा पर प्रशिक्षित किया जाता है, तो छोटे मॉडल में समान कम्प्यूटेशनल संसाधन और बड़े मॉडल के समान डेटा दिए जाने पर निर्णय लेने की अपर्याप्त क्षमता हो सकती है। हालाँकि, संक्षिप्त ज्ञान प्रतिनिधित्व के बारे में कुछ जानकारी इसके आउटपुट को सौंपे गए [[छद्म पसंद]] में एन्कोड की गई है: जब कोई मॉडल सही ढंग से वर्ग की भविष्यवाणी करता है, तो यह ऐसे वर्ग के अनुरूप आउटपुट चर के लिए बड़ा मान और अन्य आउटपुट चर के लिए छोटे मान निर्दिष्ट करता है। रिकॉर्ड के लिए आउटपुट के बीच मूल्यों का वितरण इस बारे में जानकारी प्रदान करता है कि कैसे बड़ा मॉडल ज्ञान का प्रतिनिधित्व करता है। इसलिए, वैध मॉडल के किफायती परिनियोजन का लक्ष्य डेटा पर केवल बड़े मॉडल को प्रशिक्षित करके, संक्षिप्त ज्ञान प्रस्तुतियों को सीखने की इसकी बेहतर क्षमता का दोहन करके, और फिर ऐसे ज्ञान को छोटे मॉडल में आसवित करके प्राप्त किया जा सकता है, जो सक्षम नहीं होगा बड़े मॉडल के [[सॉफ्ट-इन सॉफ्ट-आउट डिकोडर]] को सीखने के लिए इसे प्रशिक्षित करके इसे अपने आप सीखें।<ref name="Hinton15" />
ज्ञान को बड़े से छोटे मॉडल में स्थानांतरित करने के लिए किसी तरह से बाद वाले को बिना वैधता खोए सिखाने की आवश्यकता है। यदि दोनों मॉडलों को ही डेटा पर प्रशिक्षित किया जाता है, तो छोटे मॉडल में समान कम्प्यूटेशनल संसाधन और बड़े मॉडल के समान डेटा दिए जाने पर निर्णय लेने की अपर्याप्त क्षमता हो सकती है। चूँकि, संक्षिप्त ज्ञान प्रतिनिधित्व के बारे में कुछ जानकारी इसके आउटपुट को सौंपे गए [[छद्म पसंद|छद्म संभावनाएँ]] में एन्कोड की गई है: जब कोई मॉडल सही विधि से वर्ग की भविष्यवाणी करता है, तो यह ऐसे वर्ग के अनुरूप आउटपुट वेरिएबल्स के लिए बड़ा मान और अन्य आउटपुट वेरिएबल्स के लिए छोटे मान निर्दिष्ट करता है। रिकॉर्ड के लिए आउटपुट के बीच मानों का वितरण इस बारे में जानकारी प्रदान करता है कि कैसे बड़ा मॉडल ज्ञान का प्रतिनिधित्व करता है। इसलिए, वैध मॉडल के किफायती परिनियोजन का लक्ष्य डेटा पर केवल बड़े मॉडल को प्रशिक्षित करके, संक्षिप्त ज्ञान प्रस्तुतियों को सीखने की इसकी बेहतर क्षमता का दोहन करके, और फिर ऐसे ज्ञान को छोटे मॉडल में आसवित करके प्राप्त किया जा सकता है, जो सक्षम नहीं होगा बड़े मॉडल के [[सॉफ्ट-इन सॉफ्ट-आउट डिकोडर]] को सीखने के लिए इसे प्रशिक्षित करके इसे अपने आप सीखें।<ref name="Hinton15" />


कृत्रिम न्यूरल नेटवर्क को दूसरे नेटवर्क में डिस्टिल करने का पहला उदाहरण 1992 का है, जब [[जुएरगेन श्मिटुबर]] ने उच्च स्तर के चंकर नेटवर्क को निचले स्तर के ऑटोमेटाइज़र नेटवर्क में डिस्टिल करके एकल आरएनएन में [[कृत्रिम तंत्रिका नेटवर्क]] (आरएनएन) के पदानुक्रम को संकुचित या ध्वस्त कर दिया था। .<ref name="schmidhuber1992">{{cite journal |last1=Schmidhuber |first1=Jürgen |year=1992 |title=इतिहास संपीड़न के सिद्धांत का उपयोग करके जटिल, विस्तारित अनुक्रम सीखना|url=ftp://ftp.idsia.ch/pub/juergen/chunker.pdf |journal=Neural Computation |volume=4 |issue=2 |pages=234–242 |doi=10.1162/neco.1992.4.2.234 |s2cid=18271205 }}</ref><ref name="DLhistory">{{cite arXiv|last=Schmidhuber|first=Juergen|author-link=Juergen Schmidhuber|date=2022|title=आधुनिक एआई और डीप लर्निंग का एनोटेट इतिहास|class=cs.NE|eprint=2212.11279}}</ref> इससे डाउनस्ट्रीम डीप लर्निंग में मदद मिली।
कृत्रिम तंत्रिका नेटवर्क को दूसरे नेटवर्क में डिस्टिल करने का पहला उदाहरण 1992 का है, जब [[जुएरगेन श्मिटुबर]] ने उच्च स्तर के चंकर नेटवर्क को निचले स्तर के ऑटोमेटाइज़र नेटवर्क में डिस्टिल करके एकल आरएनएन में [[कृत्रिम तंत्रिका नेटवर्क]] (आरएनएन) के पदानुक्रम को संकुचित या नष्ट कर दिया था।<ref name="schmidhuber1992">{{cite journal |last1=Schmidhuber |first1=Jürgen |year=1992 |title=इतिहास संपीड़न के सिद्धांत का उपयोग करके जटिल, विस्तारित अनुक्रम सीखना|url=ftp://ftp.idsia.ch/pub/juergen/chunker.pdf |journal=Neural Computation |volume=4 |issue=2 |pages=234–242 |doi=10.1162/neco.1992.4.2.234 |s2cid=18271205 }}</ref><ref name="DLhistory">{{cite arXiv|last=Schmidhuber|first=Juergen|author-link=Juergen Schmidhuber|date=2022|title=आधुनिक एआई और डीप लर्निंग का एनोटेट इतिहास|class=cs.NE|eprint=2212.11279}}</ref> इससे डाउनस्ट्रीम डीप आसवन में सहायता मिली थी।


एकल [[तंत्रिका नेटवर्क]] में कई मॉडलों के ज्ञान को संपीड़ित करने के लिए संबंधित पद्धति को 2006 में मॉडल संपीड़न कहा जाता था। उच्च प्रदर्शन वाले पहनावा द्वारा लेबल किए गए छद्म डेटा पर छोटे मॉडल को प्रशिक्षित करके संपीड़न प्राप्त किया गया था, जो [[ log ]] से मिलान करने के लिए अनुकूलित था। कंप्रेस्ड मॉडल का पहनावा के लॉग में।<ref>{{cite conference|title=मॉडल संपीड़न|book-title=Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining|year=2006|last1=Buciluǎ|first1=Cristian|last2=Caruana|first2=Rich|last3=Niculescu-Mizil|first3=Alexandru}}</ref> नॉलेज डिस्टिलेशन इस तरह के दृष्टिकोण का सामान्यीकरण है, जिसे [[जेफ्री हिंटन]] एट अल द्वारा पेश किया गया है। 2015 में,<ref name="Hinton15" />[[प्रीप्रिंट]] में जिसने अवधारणा तैयार की और [[छवि वर्गीकरण]] के कार्य में प्राप्त कुछ परिणाम दिखाए।
एकल [[तंत्रिका नेटवर्क]] में कई मॉडलों के ज्ञान को संपीड़ित करने के लिए संबंधित पद्धति को 2006 में मॉडल संपीड़न कहा जाता था। संकुचित मॉडल के लॉगिट को संपरिधान के [[ log |लॉगिट]] से मिलान करने के लिए अनुकूलित उच्च प्रदर्शन वाले संपरिधान द्वारा लेबल किए गए छद्म डेटा की बड़ी मात्रा पर एक छोटे मॉडल को प्रशिक्षित करके संपीड़न प्राप्त किया गया था।<ref>{{cite conference|title=मॉडल संपीड़न|book-title=Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining|year=2006|last1=Buciluǎ|first1=Cristian|last2=Caruana|first2=Rich|last3=Niculescu-Mizil|first3=Alexandru}}</ref> ज्ञान आसवन इस तरह के दृष्टिकोण का सामान्यीकरण है, जिसे [[जेफ्री हिंटन]] एट अल द्वारा प्रस्तुत किया गया है। 2015 में,<ref name="Hinton15" /> [[प्रीप्रिंट]] में जिसने अवधारणा तैयार की और [[छवि वर्गीकरण]] के कार्य में प्राप्त कुछ परिणाम दिखाए थे।


नॉलेज डिस्टिलेशन भी फ़राज़ तोराबी एट द्वारा चर्चा की गई व्यवहारिक क्लोनिंग की अवधारणा से संबंधित है। अल।<ref>{{cite arXiv |eprint=1805.01954 |last1=Torabi |first1=Faraz |last2=Warnell |first2=Garrett |last3=Stone |first3=Peter |title=अवलोकन से व्यवहारिक क्लोनिंग|year=2018 |class=cs.AI }}</ref>
ज्ञान आसवन भी फ़राज़ तोराबी एट अल द्वारा वेरिएबल्स्चा की गई व्यवहारिक क्लोनिंग की अवधारणा से संबंधित है।<ref>{{cite arXiv |eprint=1805.01954 |last1=Torabi |first1=Faraz |last2=Warnell |first2=Garrett |last3=Stone |first3=Peter |title=अवलोकन से व्यवहारिक क्लोनिंग|year=2018 |class=cs.AI }}</ref>




== सूत्रीकरण ==
== सूत्रीकरण ==


सदिश चर के समारोह के रूप में बड़े मॉडल को देखते हुए <math>\mathbf{x}</math>, विशिष्ट [[सांख्यिकीय वर्गीकरण]] कार्य के लिए प्रशिक्षित, आमतौर पर नेटवर्क की अंतिम परत [[सॉफ्टमैक्स फ़ंक्शन]] के रूप में होती है
सदिश वेरिएबल्स <math>\mathbf{x}</math> के फलन के रूप में बड़े मॉडल को देखते हुए, विशिष्ट [[सांख्यिकीय वर्गीकरण]] कार्य के लिए प्रशिक्षित, सामान्यतः नेटवर्क की अंतिम परत [[सॉफ्टमैक्स फ़ंक्शन|सॉफ्टमैक्स फलन]] के रूप में होती है
:<math>
:<math>
y_i(\mathbf{x}|t) = \frac{e^{\frac{z_i(\mathbf{x})}{t}}}{\sum_j e^{\frac{z_j(\mathbf{x})}{t}}}
y_i(\mathbf{x}|t) = \frac{e^{\frac{z_i(\mathbf{x})}{t}}}{\sum_j e^{\frac{z_j(\mathbf{x})}{t}}}
</math>
</math>
कहाँ <math>t</math> तापमान नामक पैरामीटर है, जो मानक सॉफ्टमैक्स के लिए सामान्य रूप से 1 पर सेट होता है। सॉफ्टमैक्स ऑपरेटर लॉगिट मानों को परिवर्तित करता है <math>z_i(\mathbf{x})</math> छद्म संभावनाओं के लिए, और तापमान के उच्च मूल्यों का प्रभाव आउटपुट वर्गों के बीच छद्म संभावनाओं के नरम वितरण को उत्पन्न करने पर पड़ता है। नॉलेज डिस्टिलेशन में छोटे नेटवर्क को प्रशिक्षित करना शामिल है, जिसे डिस्टिल्ड मॉडल कहा जाता है, डिस्टिल्ड मॉडल के आउटपुट के बीच [[क्रॉस एन्ट्रापी]] का उपयोग करके ट्रांसफर सेट (बड़े मॉडल को प्रशिक्षित करने के लिए उपयोग किए जाने वाले [[ डाटासेट ]] से अलग) नामक डेटासेट पर। <math>\mathbf{y}(\mathbf{x}|t)</math> और आउटपुट <math>\hat{\mathbf{y}}(\mathbf{x}|t)</math> ही रिकॉर्ड पर बड़े मॉडल द्वारा उत्पादित (या व्यक्तिगत आउटपुट का औसत, यदि बड़ा मॉडल पहनावा है), सॉफ्टमैक्स तापमान के उच्च मूल्य का उपयोग करके <math>t</math> दोनों मॉडलों के लिए<ref name="Hinton15" />:<math>
जहाँ <math>t</math> तापमान नामक पैरामीटर है, जो मानक सॉफ्टमैक्स के लिए सामान्य रूप से 1 पर समुच्चय होता है। सॉफ्टमैक्स ऑपरेटर लॉगिट मानों <math>z_i(\mathbf{x})</math> को परिवर्तित करता है छद्म संभावनाओं के लिए, और तापमान के उच्च मानों का प्रभाव आउटपुट वर्गों के बीच छद्म संभावनाओं के नरम वितरण को उत्पन्न करने पर पड़ता है। ज्ञान आसवन में डिस्टिल्ड मॉडल कहे जाने वाले एक छोटे नेटवर्क को स्थानांतरण समुच्चय (बड़े मॉडल को प्रशिक्षित करने के लिए उपयोग किए जाने वाले [[ डाटासेट |डाटासमुच्चय]] से अलग) नामक डेटासमुच्चय पर डिस्टिल्ड मॉडल <math>\mathbf{y}(\mathbf{x}|t)</math> के आउटपुट और बड़े मॉडल द्वारा उत्पादित (या व्यक्तिगत आउटपुट का औसत, यदि बड़ा मॉडल संपरिधान है) आउटपुट <math>\hat{\mathbf{y}}(\mathbf{x}|t)</math> के बीच हानि फलन के रूप में [[क्रॉस एन्ट्रापी]] का उपयोग करके प्रशिक्षित करना सम्मिलित है। सॉफ्टमैक्स तापमान के उच्च मूल्य का उपयोग करके <math>t</math> दोनों मॉडलों के लिए<ref name="Hinton15" /> :<math>
E(\mathbf{x}|t) = -\sum_i \hat{y}_i(\mathbf{x}|t) \log y_i(\mathbf{x}|t) .
E(\mathbf{x}|t) = -\sum_i \hat{y}_i(\mathbf{x}|t) \log y_i(\mathbf{x}|t) .
</math>
</math>
इस संदर्भ में, उच्च तापमान आउटपुट की एन्ट्रापी को बढ़ाता है, और इसलिए कठिन लक्ष्यों की तुलना में डिस्टिल्ड मॉडल के लिए सीखने के लिए अधिक जानकारी प्रदान करता है, साथ ही विभिन्न रिकॉर्ड के बीच [[ ग्रेडियेंट ]] के अंतर को कम करता है और इसलिए उच्च [[सीखने की दर]] की अनुमति देता है।<ref name="Hinton15" />


यदि स्थानांतरण सेट के लिए जमीनी सच्चाई उपलब्ध है, तो डिस्टिल्ड मॉडल के आउटपुट के बीच क्रॉस-एन्ट्रॉपी के नुकसान को जोड़कर प्रक्रिया को मजबूत किया जा सकता है (के साथ गणना की गई) <math>t = 1</math>) और ज्ञात लेबल <math>\bar{y}</math>
इस संदर्भ में, उच्च तापमान आउटपुट की एन्ट्रापी को बढ़ाता है, और इसलिए कठिन लक्ष्यों की तुलना में डिस्टिल्ड मॉडल के लिए सीखने के लिए अधिक जानकारी प्रदान करता है, साथ ही विभिन्न रिकॉर्ड के बीच [[ ग्रेडियेंट |प्रवणता]] के अंतर को कम करता है और इसलिए उच्च [[सीखने की दर]] की अनुमति देता है।<ref name="Hinton15" />
 
यदि स्थानांतरण समुच्चय के लिए जमीनी सच्चाई उपलब्ध है, तो डिस्टिल्ड मॉडल (<math>t = 1</math> के साथ गणना) और ज्ञात लेबल <math>\bar{y}</math> के आउटपुट के बीच क्रॉस-एन्ट्रॉपी के हानि को जोड़कर प्रक्रिया को शक्तिशाली किया जा सकता है
:<math>
:<math>
E(\mathbf{x}|t) = -t^2 \sum_i \hat{y}_i(\mathbf{x}|t) \log y_i(\mathbf{x}|t) - \sum_i \bar{y}_i \log y_i(\mathbf{x}|1)
E(\mathbf{x}|t) = -t^2 \sum_i \hat{y}_i(\mathbf{x}|t) \log y_i(\mathbf{x}|t) - \sum_i \bar{y}_i \log y_i(\mathbf{x}|1)
</math>
</math>
जहां बड़े मॉडल के संबंध में हानि के घटक को कारक द्वारा भारित किया जाता है <math>t^2</math> चूंकि, जैसे-जैसे तापमान बढ़ता है, मॉडल वज़न के संबंध में नुकसान की प्रवणता कारक द्वारा मापी जाती है <math>\frac{1}{t^2}</math>.<ref name="Hinton15" />
जहां बड़े मॉडल के संबंध में हानि के घटक <math>t^2</math> को कारक द्वारा भारित किया जाता है चूंकि, जैसे-जैसे तापमान बढ़ता है, मॉडल भार के संबंध में हानि की प्रवणता <math>\frac{1}{t^2}</math> के कारक से होता है।<ref name="Hinton15" />
 




== मॉडल संपीड़न के साथ संबंध ==
== मॉडल संपीड़न के साथ संबंध ==


इस धारणा के तहत कि लॉग्स का माध्य शून्य है, यह दिखाना संभव है कि मॉडल संपीड़न ज्ञान आसवन का विशेष मामला है। ज्ञान आसवन हानि की ढाल <math>E</math> डिस्टिल्ड मॉडल के लॉग के संबंध में <math>z_i</math> द्वारा दिया गया है
इस धारणा के अनुसार कि लॉग्स का माध्य शून्य है, यह दिखाना संभव है कि मॉडल संपीड़न ज्ञान आसवन का विशेष मामला है। ज्ञान आसवन हानि की प्रवणता <math>E</math> डिस्टिल्ड मॉडल के लॉग के संबंध में <math>z_i</math> द्वारा दिया गया है
:<math>
:<math>
\begin{align}
\begin{align}
Line 53: Line 58:
\end{align}
\end{align}
</math>
</math>
कहाँ <math>\hat{z}_i</math> बड़े मॉडल के लॉग हैं। के बड़े मूल्यों के लिए <math>t</math> इसका अनुमान लगाया जा सकता है
जहाँ <math>\hat{z}_i</math> बड़े मॉडल के लॉग हैं। <math>t</math> के बड़े मानों के लिए इसका अनुमान लगाया जा सकता है
:<math>
:<math>
\frac{1}{t}
\frac{1}{t}
Line 61: Line 66:
\right)
\right)
</math>
</math>
और शून्य-मतलब परिकल्पना के तहत <math>\sum_j z_j = \sum_j \hat{z}_j = 0</math> यह बनता है <math> \frac{z_i - \hat{z}_i}{NT^2} </math>, जिसका व्युत्पन्न है <math>\frac{1}{2} \left( z_i - \hat{z}_i \right)^2</math>, यानी नुकसान दो मॉडलों के लॉग्स के मिलान के बराबर है, जैसा कि मॉडल संपीड़न में किया गया है।<ref name="Hinton15" />
और शून्य-मतलब परिकल्पना के अनुसार <math>\sum_j z_j = \sum_j \hat{z}_j = 0</math> यह <math> \frac{z_i - \hat{z}_i}{NT^2} </math> बनता है, जिसका व्युत्पन्न <math>\frac{1}{2} \left( z_i - \hat{z}_i \right)^2</math> है, अर्थात् हानि दो मॉडलों के लॉग्स के मिलान के बराबर है, जैसा कि मॉडल संपीड़न में किया गया है।<ref name="Hinton15" />




Line 70: Line 75:
== बाहरी संबंध ==
== बाहरी संबंध ==
* [https://ai.google/research/pubs/pub44873 Distilling the knowledge in a neural network – Google AI]
* [https://ai.google/research/pubs/pub44873 Distilling the knowledge in a neural network – Google AI]
[[Category: ध्यान लगा के पढ़ना या सीखना]]


[[Category: Machine Translated Page]]
[[Category:Created On 02/05/2023]]
[[Category:Created On 02/05/2023]]
[[Category:Lua-based templates]]
[[Category:Machine Translated Page]]
[[Category:Pages with script errors]]
[[Category:Templates Vigyan Ready]]
[[Category:Templates that add a tracking category]]
[[Category:Templates that generate short descriptions]]
[[Category:Templates using TemplateData]]
[[Category:ध्यान लगा के पढ़ना या सीखना]]

Latest revision as of 16:02, 16 May 2023

यंत्र ज्ञान में, ज्ञान आसवन ज्ञान को बड़े सांख्यिकीय मॉडल से छोटे मॉडल में स्थानांतरित करने की प्रक्रिया है। जबकि बड़े मॉडल (जैसे कि बहुत गहरे तंत्रिका नेटवर्क या कई मॉडलों के समूह (यंत्र ज्ञान)) में छोटे मॉडल की तुलना में उच्च ज्ञान क्षमता होती है, यह क्षमता पूरी तरह से उपयोग नहीं की जा सकती है। यह कम्प्यूटेशनल रूप से मॉडल का मूल्यांकन करने के लिए उतना ही महंगा हो सकता है, तथापि वह अपनी ज्ञान क्षमता का कम उपयोग करता हो। ज्ञान आसवन सांख्यिकीय मॉडल सत्यापन के हानि के बिना ज्ञान को एक बड़े मॉडल से छोटे मॉडल में स्थानांतरित करता है। चूंकि छोटे मॉडल मूल्यांकन के लिए कम खर्चीले होते हैं, उन्हें कम शक्तिशाली हार्डवेयर (जैसे मोबाइल डिवाइस) पर प्रायुक्त किया जा सकता है।[1]

यंत्र ज्ञान के कई अनुप्रयोगों जैसे वस्तु का पता लगाना , ध्वनिक मॉडल,[2] और प्राकृतिक भाषा प्रसंस्करण[3] में ज्ञान आसवन का सफलतापूर्वक उपयोग किया गया है।[4]

वर्तमान में, इसे गैर-ग्रिड डेटा पर लागू तंत्रिका नेटवर्क को ग्राफ़ करने के लिए भी प्रस्तुत किया गया है।[5]


आसवन की अवधारणा

ज्ञान को बड़े से छोटे मॉडल में स्थानांतरित करने के लिए किसी तरह से बाद वाले को बिना वैधता खोए सिखाने की आवश्यकता है। यदि दोनों मॉडलों को ही डेटा पर प्रशिक्षित किया जाता है, तो छोटे मॉडल में समान कम्प्यूटेशनल संसाधन और बड़े मॉडल के समान डेटा दिए जाने पर निर्णय लेने की अपर्याप्त क्षमता हो सकती है। चूँकि, संक्षिप्त ज्ञान प्रतिनिधित्व के बारे में कुछ जानकारी इसके आउटपुट को सौंपे गए छद्म संभावनाएँ में एन्कोड की गई है: जब कोई मॉडल सही विधि से वर्ग की भविष्यवाणी करता है, तो यह ऐसे वर्ग के अनुरूप आउटपुट वेरिएबल्स के लिए बड़ा मान और अन्य आउटपुट वेरिएबल्स के लिए छोटे मान निर्दिष्ट करता है। रिकॉर्ड के लिए आउटपुट के बीच मानों का वितरण इस बारे में जानकारी प्रदान करता है कि कैसे बड़ा मॉडल ज्ञान का प्रतिनिधित्व करता है। इसलिए, वैध मॉडल के किफायती परिनियोजन का लक्ष्य डेटा पर केवल बड़े मॉडल को प्रशिक्षित करके, संक्षिप्त ज्ञान प्रस्तुतियों को सीखने की इसकी बेहतर क्षमता का दोहन करके, और फिर ऐसे ज्ञान को छोटे मॉडल में आसवित करके प्राप्त किया जा सकता है, जो सक्षम नहीं होगा बड़े मॉडल के सॉफ्ट-इन सॉफ्ट-आउट डिकोडर को सीखने के लिए इसे प्रशिक्षित करके इसे अपने आप सीखें।[1]

कृत्रिम तंत्रिका नेटवर्क को दूसरे नेटवर्क में डिस्टिल करने का पहला उदाहरण 1992 का है, जब जुएरगेन श्मिटुबर ने उच्च स्तर के चंकर नेटवर्क को निचले स्तर के ऑटोमेटाइज़र नेटवर्क में डिस्टिल करके एकल आरएनएन में कृत्रिम तंत्रिका नेटवर्क (आरएनएन) के पदानुक्रम को संकुचित या नष्ट कर दिया था।[6][7] इससे डाउनस्ट्रीम डीप आसवन में सहायता मिली थी।

एकल तंत्रिका नेटवर्क में कई मॉडलों के ज्ञान को संपीड़ित करने के लिए संबंधित पद्धति को 2006 में मॉडल संपीड़न कहा जाता था। संकुचित मॉडल के लॉगिट को संपरिधान के लॉगिट से मिलान करने के लिए अनुकूलित उच्च प्रदर्शन वाले संपरिधान द्वारा लेबल किए गए छद्म डेटा की बड़ी मात्रा पर एक छोटे मॉडल को प्रशिक्षित करके संपीड़न प्राप्त किया गया था।[8] ज्ञान आसवन इस तरह के दृष्टिकोण का सामान्यीकरण है, जिसे जेफ्री हिंटन एट अल द्वारा प्रस्तुत किया गया है। 2015 में,[1] प्रीप्रिंट में जिसने अवधारणा तैयार की और छवि वर्गीकरण के कार्य में प्राप्त कुछ परिणाम दिखाए थे।

ज्ञान आसवन भी फ़राज़ तोराबी एट अल द्वारा वेरिएबल्स्चा की गई व्यवहारिक क्लोनिंग की अवधारणा से संबंधित है।[9]


सूत्रीकरण

सदिश वेरिएबल्स के फलन के रूप में बड़े मॉडल को देखते हुए, विशिष्ट सांख्यिकीय वर्गीकरण कार्य के लिए प्रशिक्षित, सामान्यतः नेटवर्क की अंतिम परत सॉफ्टमैक्स फलन के रूप में होती है

जहाँ तापमान नामक पैरामीटर है, जो मानक सॉफ्टमैक्स के लिए सामान्य रूप से 1 पर समुच्चय होता है। सॉफ्टमैक्स ऑपरेटर लॉगिट मानों को परिवर्तित करता है छद्म संभावनाओं के लिए, और तापमान के उच्च मानों का प्रभाव आउटपुट वर्गों के बीच छद्म संभावनाओं के नरम वितरण को उत्पन्न करने पर पड़ता है। ज्ञान आसवन में डिस्टिल्ड मॉडल कहे जाने वाले एक छोटे नेटवर्क को स्थानांतरण समुच्चय (बड़े मॉडल को प्रशिक्षित करने के लिए उपयोग किए जाने वाले डाटासमुच्चय से अलग) नामक डेटासमुच्चय पर डिस्टिल्ड मॉडल के आउटपुट और बड़े मॉडल द्वारा उत्पादित (या व्यक्तिगत आउटपुट का औसत, यदि बड़ा मॉडल संपरिधान है) आउटपुट के बीच हानि फलन के रूप में क्रॉस एन्ट्रापी का उपयोग करके प्रशिक्षित करना सम्मिलित है। सॉफ्टमैक्स तापमान के उच्च मूल्य का उपयोग करके दोनों मॉडलों के लिए[1] :

इस संदर्भ में, उच्च तापमान आउटपुट की एन्ट्रापी को बढ़ाता है, और इसलिए कठिन लक्ष्यों की तुलना में डिस्टिल्ड मॉडल के लिए सीखने के लिए अधिक जानकारी प्रदान करता है, साथ ही विभिन्न रिकॉर्ड के बीच प्रवणता के अंतर को कम करता है और इसलिए उच्च सीखने की दर की अनुमति देता है।[1]

यदि स्थानांतरण समुच्चय के लिए जमीनी सच्चाई उपलब्ध है, तो डिस्टिल्ड मॉडल ( के साथ गणना) और ज्ञात लेबल के आउटपुट के बीच क्रॉस-एन्ट्रॉपी के हानि को जोड़कर प्रक्रिया को शक्तिशाली किया जा सकता है

जहां बड़े मॉडल के संबंध में हानि के घटक को कारक द्वारा भारित किया जाता है चूंकि, जैसे-जैसे तापमान बढ़ता है, मॉडल भार के संबंध में हानि की प्रवणता के कारक से होता है।[1]


मॉडल संपीड़न के साथ संबंध

इस धारणा के अनुसार कि लॉग्स का माध्य शून्य है, यह दिखाना संभव है कि मॉडल संपीड़न ज्ञान आसवन का विशेष मामला है। ज्ञान आसवन हानि की प्रवणता डिस्टिल्ड मॉडल के लॉग के संबंध में द्वारा दिया गया है

जहाँ बड़े मॉडल के लॉग हैं। के बड़े मानों के लिए इसका अनुमान लगाया जा सकता है

और शून्य-मतलब परिकल्पना के अनुसार यह बनता है, जिसका व्युत्पन्न है, अर्थात् हानि दो मॉडलों के लॉग्स के मिलान के बराबर है, जैसा कि मॉडल संपीड़न में किया गया है।[1]


संदर्भ

  1. 1.0 1.1 1.2 1.3 1.4 1.5 1.6 Hinton, Geoffrey; Vinyals, Oriol; Dean, Jeff (2015). "एक तंत्रिका नेटवर्क में ज्ञान को आसवित करना". arXiv:1503.02531 [stat.ML].
  2. Asami, Taichi; Masumura, Ryo; Yamaguchi, Yoshikazu; Masataki, Hirokazu; Aono, Yushi (2017). ज्ञान आसवन का उपयोग करके DNN ध्वनिक मॉडल का डोमेन अनुकूलन. IEEE International Conference on Acoustics, Speech and Signal Processing. pp. 5185–5189.
  3. Cui, Jia; Kingsbury, Brian; Ramabhadran, Bhuvana; Saon, George; Sercu, Tom; Audhkhasi, Kartik; Sethy, Abhinav; Nussbaum-Thom, Markus; Rosenberg, Andrew (2017). निम्न-संसाधन वाली भाषाओं के लिए बहुभाषी मॉडलों के समूह में ज्ञान आसवन. IEEE International Conference on Acoustics, Speech and Signal Processing. pp. 4825–4829.}
  4. Chen, Guobin; Choi, Wongun; Yu, Xiang; Han, Tony; Chandraker, Manmohan (2017). "ज्ञान आसवन के साथ कुशल वस्तु पहचान मॉडल सीखना". Advances in Neural Information Processing Systems: 742–751.
  5. Yang, Yiding; Jiayan, Qiu; Mingli, Song; Dacheng, Tao; Xinchao, Wang (2020). "ग्राफ कनवॉल्यूशनल नेटवर्क्स से डिस्टिलिंग नॉलेज" (PDF). Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition: 7072–7081. arXiv:2003.10477. Bibcode:2020arXiv200310477Y.
  6. Schmidhuber, Jürgen (1992). "इतिहास संपीड़न के सिद्धांत का उपयोग करके जटिल, विस्तारित अनुक्रम सीखना" (PDF). Neural Computation. 4 (2): 234–242. doi:10.1162/neco.1992.4.2.234. S2CID 18271205.
  7. Schmidhuber, Juergen (2022). "आधुनिक एआई और डीप लर्निंग का एनोटेट इतिहास". arXiv:2212.11279 [cs.NE].
  8. Buciluǎ, Cristian; Caruana, Rich; Niculescu-Mizil, Alexandru (2006). "मॉडल संपीड़न". Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining.
  9. Torabi, Faraz; Warnell, Garrett; Stone, Peter (2018). "अवलोकन से व्यवहारिक क्लोनिंग". arXiv:1805.01954 [cs.AI].


बाहरी संबंध